long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[148] I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision #160

Open long8v opened 7 months ago

long8v commented 7 months ago
image

paper

TL;DR

Details

텍스트 임베딩도 CLIP에서 나온걸 씀! VQA에서 context라던지, SNLI에서 premise 같은것들은 T5 임베딩 씀. 어떻게 벡터로 넣어줬는지 좀 애매하게 써져있는데 CLIP에서 나온 임베딩이 2048이고 T5가 받는 임베딩이 512이면 2048 임베딩을 잘라서 4개의 512 벡터로 바꿔서 넣어줬다는 듯

image

CLIP의 image / text encoder는 freeze하고 T5만 finetune하는 형태

결론적으로 가우시안 노이즈 + training hyperparameter w로 scale을 함.

image

text 벡터에 약간의 noise를 주는 건 민감하지 않았고 이미지 방향으로 조금 shift시키는 것(mean)은 VE의 경우 performance가 좋아지기도 했으나 반대 방향으로 가게 하는 것은(-mean) 성능에 악영향을 주었다.

zero gaussian이 best는 아니므로 더 나은 adaptor가 있을까 학습. 대신 이건 text-only로 학습이 안되므로 main모델로는 못들어감. linear는 linear map을 학습하는 방식이고 cov.는 학습 가능한 text와 image의 covariance로 structured noise를 추가하는 방식임

GPT-J등을 써서 coco에 많이 나오는 단어들로 캡션 생성하게 해서 학습할 수 있음