MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

runhani commented 6 months ago

https://arxiv.org/abs/2403.09611

아니 애플에서 MLLM a.k.a. LMM 논문을 냈다고?!
이건 review를 안 할 수가 없지!!!
과연 어떻게 실험하고 있던 것일까?
key takeaways
1. image encoder, vision language conneter (a.k.a. q-former, c-adapter), data 뭣이 중요할까?
2. data의 careful mix가 중요하다.
3. image encoder의 resolution이 중요하다. 당연히 클수록 좋다!
4. connetor는 뭘 쓰든 큰 상관없다.
5. 그래서 MM1-3B, MM1-7B, MM1-30B 를 만들었다.
MM1-3B : 3B MoE with 64 experts
MM1-7B : 7B MoE with 32 experts
MM1-30B : 30B

runhani commented 6 months ago

결국 design을 위해서는 ablations이 중요하다. 그래서 model architecture와 pre-training data의 선택에 대한 다양한 실험을 통해 아래 순서대로 중요하다는 것을 발견했다.

image resolution
visual encoder loss and capacity
visual encoder pre-training data.

Data는 3개의 mix를 했다.

image-caption (45%)
interleaved image-text documents n(45%)
text-only data. (10%)

runhani commented 6 months ago

CLIP (image-text alt-text pairs) with contrastive loss 이냐 DINOv2 (self-supervised models, vision-only) with reconstructive loss 그것이 문제로다

LLM은 2.9B로 고정시켜 놓고 ablation을 해보면

발견한 사실

clip-style models은 dense prediction에 취약하지만 ablation해보면 딱히 큰 차이가 보이지 않지만
단순히 image resolution을 키우기만 해도 성능이 올라간다. (동일한 ViT-L에 대해서)
그래서 우리가 개발하는 한국어 MLLM도 image resolution을 크게 가져가고자 한다!!!

runhani commented 6 months ago

결국 image embedding은 LLM의 입력으로 들어가야 한다.

single embedding이거나
grid-arranged (격자) embeddings 이거나
LLM의 입력으로 들어가기 위해서는 변환이 한번 필요하다

그런데 여기서 image tokens를 많이 넣으면 당연히 dense한 detail들을 많이 볼 수 있어서 좋을 것 같은데 multi-image input의 경우 계산이 너무 늘어나는 challenge가 있다.

** 발견한 사실

visual tokens가 클수록 성능이 좋다. (64 tokens → 144 tokens :+1: )
image resolution이 클수록 성능이 좋다. (224 tokens → 336 tokens :+1: )
average pool, attention pool, c-abstractor (뭐가 좋은지 결론을 내리기가 어렵다. ㅜㅠ)

runhani commented 6 months ago

결국 어떤 Data가 중요할까?

애플도 open data를 사용하는 구나...

발견한 사실

few-shot 성능과 text-only성능을 위해서 interleaved data는 중요하다!
captioning data는 zero-shot 성능에 중요하다.
text-only data가 text-only performance에도 중요하지만 few-shot 성능에도 중요하다.
caption / interleaved / text = (5:5:1) (떡볶이 황금 비율인가? 고추장:고춧가루:설탕 :+1: )
VeCap 합성데이타가 성능 향상에 도움이 된다. (아니 근데 data는 공개 안되고 모델만 공개.. ㅜㅠ) https://github.com/apple/ml-veclip

runhani commented 6 months ago

Final Model and Training Recipe

결국 위에서 이야기 한대로 image resolution 제일 큰 모델 378x378 , ViT-H, CLIP on DFN-5B
VL connector : 144 tokens + C-Aabstractor
Data : caption 45 : interleaved 45 : text-only 10
LLM 은 open-source가 아니라 in-house
context-size : 4,096 (최대 16 images)
batch size : 512
training framework : https://github.com/apple/axlearn
MoE : 이제는 거의 대세로 자리 잡은 구조

https://github.com/PKU-YuanGroup/MoE-LLaVA https://github.com/lucidrains/st-moe-pytorch

LIMoE

runhani commented 6 months ago

그래서 pre-training 모델 성능은?

runhani commented 6 months ago

그래서 fine-tuning 모델 성능은?

1M supervised fine-tuning examples (100만 instruction set)
LLaVA-1.5와 같이 instruction-set으로 변경
중요한 것은 SFT할때 image encoder와 LLM backbone을 un-frozen (역시나 경험에서 느껴졌지만 성능 향상을 위해서는 full training)

아니 resolution을 어디까지 키운거야?

Qwen-VL과 BLIP2에서 사용한 posional embedding interpolation!
224 pixels → 336 pixels → 378 pixels → 448 pixels → 560 pixels → 672 pixels
672 x 672 with 14x14 patch size = (672/14) x (672/14) = 48 x 48 = 2,304 tokens

original resize하고 crop까지 해서 넣었다고?

어떤 해상도 이미지가 들어오던지 간에 672x672 resize해서 넣고 (1개)
1344x1344로 resize해서 4개로 분할해서 crop해서 넣고 (4개)
즉 672x672 images를 LLM에 5번 넣는 방식
1792까지 키워봤지만 성능이 떨어져서 1,344로

그래서 apple이 만든 MM1이 Google Gemini, OpenAI GPT4V보다 더 좋다고?

VQAv2에서는 우세하지만 TextVQA / MMMU / MathV / MM-Vet 등에서 열세
MoE모델이 성능이 월등히 좋아지는가? 수치상으로는 딱히 모르겠음
하지만 여러 benchmark에서 uniform하게 성능 향상이 있다는 점은 MoE모델에 큰 잠재력이 있다는 이야기임

결론

[x] MLLM모델 만들 때 ablation에 진심이었다.
[x] pre-trained 모델은 SOTA를 찍었다.
[x] supervised fine-tuned model 모델은 경쟁사 동등 수준(?)의 모델을 만들었고
[x] 여러 image 입력과 few-shot prompting도 가능하게 만들었다.
[x] 이 논문에서 밝힌 lesson learned가 나중에 MLLM을 만들때 도움이 되길 바란다

paperswithlove / papers-we-read