result : 7B model 들 중에 거의 다 sota. textual instruction도 같이 씀 + MAM에 따라 pure text benchmark에서도 LLaMA2보다 성능 개선
contribution : VLM 모델이 text 성능도 개선하는건 아마 처음?
etc. : alibaba 돈 많은듯..
Details
Architecture
Vision Abstractor는 결국 Q-former
Modality-Adaptive Module은 결국 input의 modality에 따라 weight / norm을 다르게 하겠다는 점. 근데 query weight는 같음. 여기서 이미지에 대한 W는 새로 initialize되었기 때문에 step-1 pretraining 때 학습되는 부분.
학습 단계는 두 단계인데
1) Pre-training 때는 {CC3/12M, COCO, COYO, LAION-en, DataComp} 이런 걸로 vision encoder / q-former / language decoder의 초기화된 부분을 학습.
BLIP-2랑 비교 하면 재밌을 것 같은데, BLIP-2에서는 CLIP ViT 가져와서 vision encoder freeze. 그리고 사용하는 이미지는 비슷한 소스의 새로 캡셔닝된 데이터(CapFilt)
여기서는 vision encoder freeze 하지 않고 상대적으로 Noisy한 alt-text류를 그대로 사용! 어떻게 보면 CLIP에서 본 종류의 데이터를 generation 형태로 다시 학습하는 꼴.
2) joint-instruction tuning 때는 다 unfreeze하고 instruction data로만 학습. 이때 text instruction data도 넣은게 다른 점.
두 단계에서 달라지는거 resolution / LLM seq len
Result
caption, VQA / multi-modal benchmark
pure text benchmark
이건 MAM 덕분이다라고 말함
instruction data를 두 modality를 사용하는 것의 효과 + MAM의 효과
text intstruction data사용하면 mm 성능이 안좋고 mm instruction 사용하면 text가 안 좋아지는데 둘다 사용하면 각자 사용한 것보다 성능이 약간 안좋음 + MAM 쓰면 둘다 좋아짐
vision encoder freeze 효과
num queries
text VQA가 많이 필요
resolution
textVQA가 압도적으로 효과가 좋넹 ㅋㅋ
Qualitative Result
MAM 덕분에 초기 레이어엔 텍스트, 후반 레이어엔 이미지를 본다고 주장 -> 뭐가 좋은건지 잘(?)
관련없는 이미지랑 텍스트 주어졌을 때 MAM 가 있을 경우 텍스트에 집중했다고 서술
둘다 틀린 것 같긴한데.. MAM 있으면 적어도 7개 말하긴 함 ㅋㅋ
paper
TL;DR
Details
Architecture
두 단계에서 달라지는거 resolution / LLM seq len
Result
caption, VQA / multi-modal benchmark
pure text benchmark
이건 MAM 덕분이다라고 말함
text intstruction data사용하면 mm 성능이 안좋고 mm instruction 사용하면 text가 안 좋아지는데 둘다 사용하면 각자 사용한 것보다 성능이 약간 안좋음 + MAM 쓰면 둘다 좋아짐
vision encoder freeze 효과
num queries
text VQA가 많이 필요
textVQA가 압도적으로 효과가 좋넹 ㅋㅋ
Qualitative Result
MAM 덕분에 초기 레이어엔 텍스트, 후반 레이어엔 이미지를 본다고 주장 -> 뭐가 좋은건지 잘(?)
관련없는 이미지랑 텍스트 주어졌을 때 MAM 가 있을 경우 텍스트에 집중했다고 서술 둘다 틀린 것 같긴한데.. MAM 있으면 적어도 7개 말하긴 함 ㅋㅋ