bigshanedogg / survey

2 stars 0 forks source link

[FILIP] FILIP: Fine-grained Interactive Language-Image Pre-Training #18

Open bigshanedogg opened 1 year ago

bigshanedogg commented 1 year ago

Problem statement

  1. CLIP variants의 이미지와 텍스트 사이의 관계 학습은 텍스트의 각 토큰들과 이미지 패치의 관계에 대해 학습하기에는 학습과 추론 시 효율성이 떨어진다 -> finer-level alignment할 수 있는 방법을 찾아보자
  2. 이미지 패치와 텍스트 토큰 간의 attention 이용하는 기존 연구의 약점 -> cross-modal late interaction을 사용해보자
    • cross-attention: encoder-decoder 구조가 필요
    • self-attention: Quadratic growth of complexity

Baseline

Data details

name abbr type format source size description remark related tasks
Conceptual Captions CC3M image (image, caption) 3M image-text pretraining
Conceptual 12M CC12M image (image, caption) 12M image-text pretraining
Yahoo Flickr Creative Commons 100M YFCC100M image 100M image-text pretraining
name abbr type format source size description remark related tasks
Flickr30K image 30K image-text retrieval
MSCOCO image 30K image-text retrieval

Approach

image

Evaluation

image

Screen Shot 2022-09-01 at 2 16 15 PM Screen Shot 2022-09-01 at 2 20 49 PM

Limitations

bigshanedogg commented 1 year ago

2111.07783.pdf