상세 컨텐츠

본문 제목

Llava

인공지능/멀티모달

by Ryuzy 2026. 3. 2. 23:54

본문

반응형

1. InstructGPT

InstructGPT는 OpenAI가 기존 GPT 계열 언어모델을 사람의 의도에 더 잘 따르도록 개선한 모델로, 사람이 작성한 지시문(instruction)에 정확하고 안전하게 응답하도록 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)을 적용해 학습되었습니다. 먼저 지도학습(SFT)으로 기본적인 지시 수행 능력을 학습한 뒤, 인간 평가자가 더 좋은 답변을 선택한 데이터를 바탕으로 보상모델을 만들고, 이를 강화학습(PPO 등)에 활용해 모델을 최적화합니다. 그 결과 단순히 다음 단어를 예측하는 모델을 넘어, 사용자의 요청을 이해하고 맥락에 맞게 설명·요약·코딩·추론 등을 수행하는 “지시 따르는 대화형 언어모델”로 발전한 것이 InstructGPT입니다.

 

 

2. Vision Instruction Tuning

Vision Instruction Tuning은 대형 언어모델(LLM)에 이미지 입력을 결합한 뒤, 사람의 지시문(“이 이미지 설명해줘”, “왜 이런 상황이 발생했는지 추론해줘” 등)에 맞춰 응답하도록 추가로 미세조정하는 학습 방식입니다. 즉, 단순히 이미지-텍스트를 정렬하는 수준을 넘어, 이미지를 보고 다양한 형태의 자연어 지시를 이해하고 수행하도록 학습시키는 단계입니다. 일반적으로는 사전학습된 Vision Encoder와 LLM을 연결한 멀티모달 모델에 대해, 이미지-지시문-정답 형태의 데이터로 지도학습(SFT)을 수행하고, 경우에 따라 인간 피드백(RLHF)까지 적용하여 응답 품질을 높입니다. 그 결과 모델은 단순 캡셔닝을 넘어서 설명, 비교, 추론, 요약, 감정 해석 등 다양한 고차원 멀티모달 지시 수행이 가능해집니다.

 

1. 데이터셋의 구조

<Image>
Instruction: 이 사진에서 위험한 상황을 설명해줘.
Answer: 도로 한가운데 사람이 서 있어 교통사고 위험이 있습니다.

👉 하나의 이미지에 대해 다양한 질문과 답변을 붙입니다.

 

1세대 방식 (Human Annotation)

  • 사람이 이미지 보고 질문 작성
  • 사람이 답 작성
  • VQA, COCO Captions 등이 이런 방식

현재

  1. 기존 캡션 데이터 준비
  2. LLM에게 요청:
  3. 이 캡션을 보고 다양한 질문을 생성해줘
  4. 다시 LLM에게:
  5. 이 질문에 대한 답을 생성해줘
  6. 자동 필터링

 

2. 모델 구조

Image → Vision Encoder
                 ↓
           Projection Layer
                 ↓
            LLM (Instruction Tuned)
                 ↓
             Text Output

 

  • Vision Encoder
    • 예: CLIP ViT
    • 이미지 → feature vector
  • Projection Layer
    • 이미지 feature를 LLM 입력 차원에 맞게 변환
  • LLM
    • 이미 Instruction Tuning이 된 LLM (예: GPT계열)
    • 여기에 이미지 토큰을 함께 넣음

 

 

3. LLaVA

LLaVA(Large Language and Vision Assistant)는 사전학습된 Vision Encoder(예: CLIP ViT)와 대형 언어모델(예: LLaMA 계열)을 선형 프로젝션 레이어로 연결한 뒤, 이미지-지시문-정답 형태의 데이터로 Vision Instruction Tuning을 수행해 이미지를 보고 다양한 자연어 지시를 따르도록 만든 멀티모달 모델입니다. 핵심은 이미지 특징을 LLM 입력 토큰 공간으로 투영해 텍스트와 함께 처리하도록 하는 구조와, GPT-4 등으로 생성한 대규모 합성(instruction) 데이터를 활용해 설명·추론·비교·대화 등 고차원 응답 능력을 학습했다는 점입니다. 그 결과 LLaVA는 비교적 단순한 연결 구조로도 강력한 멀티모달 지시 수행 능력을 보이는 효율적인 비전-언어 어시스턴트 모델입니다.

 

 

반응형

'인공지능 > 멀티모달' 카테고리의 다른 글

Flamingo  (0) 2026.03.02
BLIP  (0) 2026.02.27
DINO  (0) 2026.02.26
CLIP  (0) 2026.02.06
멀티모달  (0) 2026.02.06

관련글 더보기