long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[30] CoCa: Contrastive Captioners are Image-Text Foundation Models #35

Open long8v opened 2 years ago

long8v commented 2 years ago
image

paper

TL;DR

problem : 좋은 vision backbone 만들기. 분류 레이블에 대한 이미지 프리트레이닝, 이미지-텍스트 pair를 받아 contrastive loss로 학습되는 dual-encoder model, image 인코더가 있고 text decoder가 cross-attention으로 이미지 피쳐를 받아 classification, VQA등을 하는 encoder-decoder model 세개를 통합하여 scratch 부터 학습할 수 있는 모델을 만들고 싶다.
solution : 이미지 텍스트 페어가 주어졌을 때, 이미지 인코더 텍스트 디코더 따로 인풋을 받고 이미지 인코더에서 나온 마지막 토큰과 텍스트 디코더의 cls-token으로 contrastive loss, 텍스트 디코더 위에 이미지 인풋과 크로스 어텐션이 있는 multi-model text decoder를 쌓은 뒤 captioning loss. 두 loss의 합으로 프리트레이닝 result : 다양한 task 에서 SOTA

image

Details

captioning loss image

dual encoder contrastive loss image

long8v commented 1 year ago

http://docs.google.com/presentation/u/0/

long8v commented 8 months ago

Model size

image

c.f. CLIP

image image