Open hjeun opened 3 months ago
SigLIP-448px/14, SigLIP-384px + Phi-1.5 (1.3B), Phi-2 (2.7B), Gemma (2.0B) 사용 CLIP보다 SigLIP 사용시 좋은 성능 SigLIP-384px/14에서 더 좋은 성능: Scaling up image resolution이 만능은 아닐 수 있음 (단, OCR등과 같은 Detail 요구 Task는 다를 수 있음) ViT+SLM 모두 Finetuning 하는 경우 더 좋은 성능 (MLLM 연구들에서 ViT 학습은 성능저하 초래 가능성 제기) SLM의 경우 Base, SFT, RLHF, Safe-RLHF 학습 모델간의 차이는 미미 SLM Full-tuning과 LoRA는 성능 유사 SigLIP-338px/14 + Phi-2 (2.7B) 사용시 가장 좋은 성능
1. LM 선택시 성능: Best는 Phi-2 (2.7B)
2. Base와 Instruction-tune LM 성능 차이: 미미 하니까 Base 써도 됨
3. Visual Encoder와 Image Resolution 성능 차이: SigLIP이 제일 좋고, Image Size는 작은게 더 좋을 수도? OCR은 예외
4. ViT+LM 학습 방법에 따른 성능 차이: 전부 Tuning이 Best인데, LM은 LoRA쓰나 Full-tuning하나 유사
5. 최종 성능
1. LM 선택시 성능: Best는 Phi-2 (2.7B)![image](https://github.com/paperswithlove/papers-we-read/assets/31366640/918c47d6-cf8f-413f-8f81-7d6667160832)
2. Base와 Instruction-tune LM 성능 차이: 미미 하니까 Base 써도 됨![image](https://github.com/paperswithlove/papers-we-read/assets/31366640/ccca6711-44ae-4ce8-9a62-d58a27cf62f3)
3. Visual Encoder와 Image Resolution 성능 차이: SigLIP이 제일 좋고, Image Size는 작은게 더 좋을 수도? OCR은 예외![image](https://github.com/paperswithlove/papers-we-read/assets/31366640/19373571-f56e-49c9-99e9-b4e392d04524)
4. ViT+LM 학습 방법에 따른 성능 차이: 전부 Tuning이 Best인데, LM은 LoRA쓰나 Full-tuning하나 유사![image](https://github.com/paperswithlove/papers-we-read/assets/31366640/8ba314d1-4613-4abb-902f-b12d2dd88c96)
5. 최종 성능
![image](https://github.com/paperswithlove/papers-we-read/assets/31366640/cd496072-f6b0-478a-8cdb-6afb7cd803ce)