paperswithlove / papers-we-read

3 stars 0 forks source link

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training #4

Open runhani opened 6 months ago

runhani commented 6 months ago

image

https://arxiv.org/abs/2403.09611

runhani commented 6 months ago

image

결국 design을 위해서는 ablations이 중요하다. 그래서 model architecture와 pre-training data의 선택에 대한 다양한 실험을 통해 아래 순서대로 중요하다는 것을 발견했다.

  1. image resolution
  2. visual encoder loss and capacity
  3. visual encoder pre-training data.

Data는 3개의 mix를 했다.

  1. image-caption (45%)
  2. interleaved image-text documents n(45%)
  3. text-only data. (10%)
runhani commented 6 months ago

image CLIP (image-text alt-text pairs) with contrastive loss 이냐 DINOv2 (self-supervised models, vision-only) with reconstructive loss 그것이 문제로다

LLM은 2.9B로 고정시켜 놓고 ablation을 해보면

발견한 사실

  1. clip-style models은 dense prediction에 취약하지만 ablation해보면 딱히 큰 차이가 보이지 않지만
  2. 단순히 image resolution을 키우기만 해도 성능이 올라간다. (동일한 ViT-L에 대해서)
  3. 그래서 우리가 개발하는 한국어 MLLM도 image resolution을 크게 가져가고자 한다!!!
runhani commented 6 months ago

결국 image embedding은 LLM의 입력으로 들어가야 한다.

그런데 여기서 image tokens를 많이 넣으면 당연히 dense한 detail들을 많이 볼 수 있어서 좋을 것 같은데 multi-image input의 경우 계산이 너무 늘어나는 challenge가 있다.

image

** 발견한 사실

  1. visual tokens가 클수록 성능이 좋다. (64 tokens → 144 tokens :+1: )
  2. image resolution이 클수록 성능이 좋다. (224 tokens → 336 tokens :+1: )
  3. average pool, attention pool, c-abstractor (뭐가 좋은지 결론을 내리기가 어렵다. ㅜㅠ)
runhani commented 6 months ago

결국 어떤 Data가 중요할까?

image

애플도 open data를 사용하는 구나...

image

발견한 사실

  1. few-shot 성능과 text-only성능을 위해서 interleaved data는 중요하다!
  2. captioning data는 zero-shot 성능에 중요하다.
  3. text-only data가 text-only performance에도 중요하지만 few-shot 성능에도 중요하다.
  4. caption / interleaved / text = (5:5:1) (떡볶이 황금 비율인가? 고추장:고춧가루:설탕 :+1: )
  5. VeCap 합성데이타가 성능 향상에 도움이 된다. (아니 근데 data는 공개 안되고 모델만 공개.. ㅜㅠ) https://github.com/apple/ml-veclip
runhani commented 6 months ago

Final Model and Training Recipe

LIMoE image

runhani commented 6 months ago

그래서 pre-training 모델 성능은?

image

runhani commented 6 months ago

그래서 fine-tuning 모델 성능은?

아니 resolution을 어디까지 키운거야?

image

original resize하고 crop까지 해서 넣었다고?

image

그래서 apple이 만든 MM1이 Google Gemini, OpenAI GPT4V보다 더 좋다고?

image

결론