result : 더 많이 trained한 MAGMA보다 성능이 더 좋은 경우가 많음. freeze해도 충분하다.
contribution : 여러 vision backbone에 대한 ablation.
etc. :
Details
아키텍쳐 자체는 간단! vision backbone 거친 feature map에 linear projection 거치고 이를 lm의 soft prompt처럼 prefix로 넣어서 vlm 학습. 이때 linear projection만 학습하는게 포인트
이 때 성능 분석한게 재밌다
1) MAGMA가 비슷한 아키텍쳐로 vision backbone + LM에 adaptor training하는 건데, 이것보다 제안한 LiMBER가 성능이 더 좋은 경우가 많다.
2) vision backbone 중에 CLIP은 language supervision이 들어간것, BEiT는 전혀 안들어간 것(self-supervision), NFRNet50은 ImageNet22K로 되어있어서 중간 정도 들어가 있다고 볼 수 있는데(classification이지만 결국 분류가 WordNet 기반으로 있어서(?) indirect하게 language supervision이 들어가 있다고 할 수 있을듯) CLIP이 가장 좋았다
3) 특히 BEiT가 가장 재밌는데, VQA {1,2,4}-shot을 보면 blind(이미지 아예 안보고 VQA)보다 성능이 안 좋다. random NFRNet 보단 좋지만 거의 도움이 안된다고 볼 수 있다.
4) 근데 BEiT를 decoder에 붙여서 image classification(데이터 뭐썼는지는?)에 추가학습한 BEiT-FT를 가지고 붙이면 오히려 CLIP보다 성능을 넘는 것도 있다 -> 결국 MAE나 BEiT같은 self-supervision 계통은 downstream task에 맞게 좀 finetune을 하는 과정이 필요한듯.
c.f.
MAE 논문에서도 linear probing할 때는 classification이랑 조금 더 가까운 InfoNCE loss로 학습된 MoCo보다 성능이 안좋았음
-> but layer finetune할 때는 더 좋아지기도
but... Masked Autoencoding Does Not Help Natural Language Supervision at Scale 이런 논문도. CLIP에서 million scale에서는 MAE를 하는게 도움 되지만 billion에서는 오히려 악화시킨다
-> 결국 적은 양의 데이터에 대해서는 self-supervision이 빛을 발하지만 clip 같이 large corpus가 있는 경우에는 굳이 안해도 되는?
BEiT의 failure case들
여러 caption metric이 있는데 vision backbone 의 우위는 일관적으로 나온다
paper
TL;DR
Details
아키텍쳐 자체는 간단! vision backbone 거친 feature map에 linear projection 거치고 이를 lm의 soft prompt처럼 prefix로 넣어서 vlm 학습. 이때 linear projection만 학습하는게 포인트
이 때 성능 분석한게 재밌다
1) MAGMA가 비슷한 아키텍쳐로 vision backbone + LM에 adaptor training하는 건데, 이것보다 제안한 LiMBER가 성능이 더 좋은 경우가 많다. 2) vision backbone 중에 CLIP은 language supervision이 들어간것, BEiT는 전혀 안들어간 것(self-supervision), NFRNet50은 ImageNet22K로 되어있어서 중간 정도 들어가 있다고 볼 수 있는데(classification이지만 결국 분류가 WordNet 기반으로 있어서(?) indirect하게 language supervision이 들어가 있다고 할 수 있을듯) CLIP이 가장 좋았다 3) 특히 BEiT가 가장 재밌는데, VQA {1,2,4}-shot을 보면 blind(이미지 아예 안보고 VQA)보다 성능이 안 좋다. random NFRNet 보단 좋지만 거의 도움이 안된다고 볼 수 있다. 4) 근데 BEiT를 decoder에 붙여서 image classification(데이터 뭐썼는지는?)에 추가학습한 BEiT-FT를 가지고 붙이면 오히려 CLIP보다 성능을 넘는 것도 있다 -> 결국 MAE나 BEiT같은 self-supervision 계통은 downstream task에 맞게 좀 finetune을 하는 과정이 필요한듯.
c.f.
MAE 논문에서도 linear probing할 때는 classification이랑 조금 더 가까운 InfoNCE loss로 학습된 MoCo보다 성능이 안좋았음 -> but layer finetune할 때는 더 좋아지기도 but... Masked Autoencoding Does Not Help Natural Language Supervision at Scale 이런 논문도. CLIP에서 million scale에서는 MAE를 하는게 도움 되지만 billion에서는 오히려 악화시킨다 -> 결국 적은 양의 데이터에 대해서는 self-supervision이 빛을 발하지만 clip 같이 large corpus가 있는 경우에는 굳이 안해도 되는?
BEiT의 failure case들
여러 caption metric이 있는데 vision backbone 의 우위는 일관적으로 나온다