InstructGPT는 OpenAI가 기존 GPT 계열 언어모델을 사람의 의도에 더 잘 따르도록 개선한 모델로, 사람이 작성한 지시문(instruction)에 정확하고 안전하게 응답하도록 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)을 적용해 학습되었습니다. 먼저 지도학습(SFT)으로 기본적인 지시 수행 능력을 학습한 뒤, 인간 평가자가 더 좋은 답변을 선택한 데이터를 바탕으로 보상모델을 만들고, 이를 강화학습(PPO 등)에 활용해 모델을 최적화합니다. 그 결과 단순히 다음 단어를 예측하는 모델을 넘어, 사용자의 요청을 이해하고 맥락에 맞게 설명·요약·코딩·추론 등을 수행하는 “지시 따르는 대화형 언어모델”로 발전한 것이 InstructGPT입니다.
Vision Instruction Tuning은 대형 언어모델(LLM)에 이미지 입력을 결합한 뒤, 사람의 지시문(“이 이미지 설명해줘”, “왜 이런 상황이 발생했는지 추론해줘” 등)에 맞춰 응답하도록 추가로 미세조정하는 학습 방식입니다. 즉, 단순히 이미지-텍스트를 정렬하는 수준을 넘어, 이미지를 보고 다양한 형태의 자연어 지시를 이해하고 수행하도록 학습시키는 단계입니다. 일반적으로는 사전학습된 Vision Encoder와 LLM을 연결한 멀티모달 모델에 대해, 이미지-지시문-정답 형태의 데이터로 지도학습(SFT)을 수행하고, 경우에 따라 인간 피드백(RLHF)까지 적용하여 응답 품질을 높입니다. 그 결과 모델은 단순 캡셔닝을 넘어서 설명, 비교, 추론, 요약, 감정 해석 등 다양한 고차원 멀티모달 지시 수행이 가능해집니다.
<Image>
Instruction: 이 사진에서 위험한 상황을 설명해줘.
Answer: 도로 한가운데 사람이 서 있어 교통사고 위험이 있습니다.
👉 하나의 이미지에 대해 다양한 질문과 답변을 붙입니다.
1세대 방식 (Human Annotation)
현재
Image → Vision Encoder
↓
Projection Layer
↓
LLM (Instruction Tuned)
↓
Text Output
LLaVA(Large Language and Vision Assistant)는 사전학습된 Vision Encoder(예: CLIP ViT)와 대형 언어모델(예: LLaMA 계열)을 선형 프로젝션 레이어로 연결한 뒤, 이미지-지시문-정답 형태의 데이터로 Vision Instruction Tuning을 수행해 이미지를 보고 다양한 자연어 지시를 따르도록 만든 멀티모달 모델입니다. 핵심은 이미지 특징을 LLM 입력 토큰 공간으로 투영해 텍스트와 함께 처리하도록 하는 구조와, GPT-4 등으로 생성한 대규모 합성(instruction) 데이터를 활용해 설명·추론·비교·대화 등 고차원 응답 능력을 학습했다는 점입니다. 그 결과 LLaVA는 비교적 단순한 연결 구조로도 강력한 멀티모달 지시 수행 능력을 보이는 효율적인 비전-언어 어시스턴트 모델입니다.