paperswithlove / papers-we-read

3 stars 0 forks source link

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models #19

Open hjeun opened 3 months ago

hjeun commented 3 months ago
  • SigLIP-448px/14, SigLIP-384px + Phi-1.5 (1.3B), Phi-2 (2.7B), Gemma (2.0B) 사용
  • CLIP보다 SigLIP 사용시 좋은 성능
  • SigLIP-384px/14에서 더 좋은 성능: Scaling up image resolution이 만능은 아닐 수 있음 (단, OCR등과 같은 Detail 요구 Task는 다를 수 있음)
  • ViT+SLM 모두 Finetuning 하는 경우 더 좋은 성능 (MLLM 연구들에서 ViT 학습은 성능저하 초래 가능성 제기)
  • SLM의 경우 Base, SFT, RLHF, Safe-RLHF 학습 모델간의 차이는 미미
  • SLM Full-tuning과 LoRA는 성능 유사
  • SigLIP-338px/14 + Phi-2 (2.7B) 사용시 가장 좋은 성능

1. LM 선택시 성능: Best는 Phi-2 (2.7B) image

2. Base와 Instruction-tune LM 성능 차이: 미미 하니까 Base 써도 됨 image

3. Visual Encoder와 Image Resolution 성능 차이: SigLIP이 제일 좋고, Image Size는 작은게 더 좋을 수도? OCR은 예외 image

4. ViT+LM 학습 방법에 따른 성능 차이: 전부 Tuning이 Best인데, LM은 LoRA쓰나 Full-tuning하나 유사 image

5. 최종 성능 image image