long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[8] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision #8

Open long8v opened 2 years ago

long8v commented 2 years ago

image arxiv Problem : Vision-Language Pretraining(VLP)를 하기 위해서는 이미지의 bounding box, label을 달아야 하여 annotation의 비용이 많이 들며 zero-shot으로 전환이 쉽지 않음 Solution : 이미지는 CoAtNet으로 인코딩한걸 텍스트 인코딩된 값을 prefix로 두어서 encoder-decoder 구조로 학습. 이 때의 데이터는 ALIGN(noisy한 이미지-텍스트 페어 데이터)와 C4(text-only)를 사용하였다. finetuning은 image captioning, visual reasoning, VQA, multimodal translation을 진행함 image Result : 다양한 finetuning task에서 SOTA, zero-shot에서도 괜찮은 성능 image 이미지 캡션 태스크에서 finetuning을 안해도(zero-shot), 프리트레이닝 없는 모델과 유사한 성적 image Vison-Lanugage 모델을 학습할 때에 텍스트만 있는 corpus를 넣는것이 유용하다는 것을 확인함(decoder의 generation 능력을 강화)

etc :