long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[113] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models #122

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper, code

TL;DR

Details

image

Querying-TransFormer(Q-Former)

frozen image encoder / frozen LLM을 연결시킬 거 찾음 image resolution과 상관없이 같은 개수의 output feature를 뽑음.

learnable query embedding을 학습. SA + CA with visual encoder로 학습. pretrained $BERT_{base}$를 가져왔고 CA는 새로 학습 시킴. 188M 크기. 32 query, 768 hidden dim. output query를 $Z$ 표현. $Z$의 차원 32 $\times$ 768은 frozen image feature의 차원보다 훨씬 작음(257 $\times$ 1024 for ViT-L/14).

Pretraining

image

Experiment

데이터는 위에 정리. CapFilt + $BLIP_{large}$를 사용해서 web image에 synthetic caption을 만들었고 CLIP ViT-L/14를 사용해서 rank를 매겨서 top-2r만 남겨서 training-data로 사용했다

image image

Result

image image image image image

vision-language represntation learning을 안하면 generative learning잘 못하더라. modality gap을 bridge를 못함.