long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[127] Linearly Mapping from Image to Text Space #139

Open long8v opened 10 months ago

long8v commented 10 months ago
image

paper

TL;DR

Details

1) MAGMA가 비슷한 아키텍쳐로 vision backbone + LM에 adaptor training하는 건데, 이것보다 제안한 LiMBER가 성능이 더 좋은 경우가 많다. 2) vision backbone 중에 CLIP은 language supervision이 들어간것, BEiT는 전혀 안들어간 것(self-supervision), NFRNet50은 ImageNet22K로 되어있어서 중간 정도 들어가 있다고 볼 수 있는데(classification이지만 결국 분류가 WordNet 기반으로 있어서(?) indirect하게 language supervision이 들어가 있다고 할 수 있을듯) CLIP이 가장 좋았다 3) 특히 BEiT가 가장 재밌는데, VQA {1,2,4}-shot을 보면 blind(이미지 아예 안보고 VQA)보다 성능이 안 좋다. random NFRNet 보단 좋지만 거의 도움이 안된다고 볼 수 있다. 4) 근데 BEiT를 decoder에 붙여서 image classification(데이터 뭐썼는지는?)에 추가학습한 BEiT-FT를 가지고 붙이면 오히려 CLIP보다 성능을 넘는 것도 있다 -> 결국 MAE나 BEiT같은 self-supervision 계통은 downstream task에 맞게 좀 finetune을 하는 과정이 필요한듯.

c.f.

image

MAE 논문에서도 linear probing할 때는 classification이랑 조금 더 가까운 InfoNCE loss로 학습된 MoCo보다 성능이 안좋았음 -> but layer finetune할 때는 더 좋아지기도 but... Masked Autoencoding Does Not Help Natural Language Supervision at Scale 이런 논문도. CLIP에서 million scale에서는 MAE를 하는게 도움 되지만 billion에서는 오히려 악화시킨다 -> 결국 적은 양의 데이터에 대해서는 self-supervision이 빛을 발하지만 clip 같이 large corpus가 있는 경우에는 굳이 안해도 되는?

BEiT의 failure case들

image image

여러 caption metric이 있는데 vision backbone 의 우위는 일관적으로 나온다