Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

arXiv: https://arxiv.org/abs/2403.06199
github: https://github.com/zhuyiche/llava-phi
Multimodal Small Language Models (MSLMs) 관련 연구로, MLLM과는 또 다른 경향성

SigLIP-448px/14, SigLIP-384px + Phi-1.5 (1.3B), Phi-2 (2.7B), Gemma (2.0B) 사용

CLIP보다 SigLIP 사용시 좋은 성능

SigLIP-384px/14에서 더 좋은 성능: Scaling up image resolution이 만능은 아닐 수 있음 (단, OCR등과 같은 Detail 요구 Task는 다를 수 있음)

ViT+SLM 모두 Finetuning 하는 경우 더 좋은 성능 (MLLM 연구들에서 ViT 학습은 성능저하 초래 가능성 제기)

SLM의 경우 Base, SFT, RLHF, Safe-RLHF 학습 모델간의 차이는 미미

SLM Full-tuning과 LoRA는 성능 유사

SigLIP-338px/14 + Phi-2 (2.7B) 사용시 가장 좋은 성능

1. LM 선택시 성능: Best는 Phi-2 (2.7B)

2. Base와 Instruction-tune LM 성능 차이: 미미 하니까 Base 써도 됨

3. Visual Encoder와 Image Resolution 성능 차이: SigLIP이 제일 좋고, Image Size는 작은게 더 좋을 수도? OCR은 예외

4. ViT+LM 학습 방법에 따른 성능 차이: 전부 Tuning이 Best인데, LM은 LoRA쓰나 Full-tuning하나 유사

5. 최종 성능

paperswithlove / papers-we-read

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models #19