Open runhani opened 6 months ago
결국 design을 위해서는 ablations이 중요하다. 그래서 model architecture와 pre-training data의 선택에 대한 다양한 실험을 통해 아래 순서대로 중요하다는 것을 발견했다.
Data는 3개의 mix를 했다.
CLIP (image-text alt-text pairs) with contrastive loss 이냐 DINOv2 (self-supervised models, vision-only) with reconstructive loss 그것이 문제로다
LLM은 2.9B로 고정시켜 놓고 ablation을 해보면
발견한 사실
그런데 여기서 image tokens를 많이 넣으면 당연히 dense한 detail들을 많이 볼 수 있어서 좋을 것 같은데 multi-image input의 경우 계산이 너무 늘어나는 challenge가 있다.
** 발견한 사실
애플도 open data를 사용하는 구나...
발견한 사실
https://github.com/PKU-YuanGroup/MoE-LLaVA https://github.com/lucidrains/st-moe-pytorch
LIMoE
https://arxiv.org/abs/2403.09611
아니 애플에서 MLLM a.k.a. LMM 논문을 냈다고?!
이건 review를 안 할 수가 없지!!!
과연 어떻게 실험하고 있던 것일까?
key takeaways
MM1-3B : 3B MoE with 64 experts
MM1-7B : 7B MoE with 32 experts
MM1-30B : 30B