younnggsuk commented 6 months ago

Learning Transferable Visual Models From Natural Language Supervision

TL;DR

자연어와 이미지를 함께 pre-training한 뒤, downstream task에 zero-shot transfer할 수 있는 방법인 CLIP (Contrastive Large-Image Pre-training)을 제안
Web에서 수집한 4억개의 (image, text) pair로 학습한 결과, zero-shot transfer만으로도 downstream task에서 task-specific하게 학습한 모델과 유사하거나 더 좋은 성능을 보이고, distribution shift에 더 robust함
CLIP은 image representation과 text representation간의 유사도를 학습시키는 방법(주어진 image와 text로부터 가장 그럴듯한 (image, text) 쌍을 예측하는 모델)이라서, text pair를 어떻게 넣어주느냐에 따라 예측하고자 하는 label에 매우 유연하게 적용이 가능함 (zero-shot transfer가 가능한 이유)

Review

Zero-shot transfer가 CLIP의 representation만으로도 수많은 downstream task로의 transfer가 잘된다는 의미였고(unseen generalization보다는 task generalization에 가까운 의미), 이를 위해 자연어로 label을 바꾸면서 유연하게 적용할 수 있다는 점을 활용했다는 점이 매우 인상깊었음
CLIP이 자연어로 유연하게 zero-shot transfer를 하면 distribution shift에서 더 robust하게 적용 가능하고, few-shot CLIP으로 적용하면 (fully supervised 대비) distribution shift에 더 robust하면서도 fully supervised만큼 성능을 높일 수 있다는게 놀라웠음
자연어로 유연하게 zero-shot transfer가 된다는거 자체가 엄청난 이점인듯…

younnggsuk commented 6 months ago

Method Details

Pre-training
1. Image와 text로부터 image encoder와 text encoder를 이용해 image feature와 text feature를 추출
2. image feature와 text feature 각각에 linear projection을 수행하여 동일한 dimension으로 맞춰줌
3. 동일한 dimension으로 맞춰진 image feature 및 text feature 각각에 대해 consine similarity를 계산하고, 같은 pair끼리는 minimize / 다른 pair끼리는 maximize 하도록 학습
Zero-shot Inference
1. 이미지는 pre-training과 동일하게 image encoder, linear projection을 통해 feature를 추출
2. Text는 예측하고자 하는 모든 label을 A photo of a {object}와 같은 일종의 prompt template에 넣는 방식으로 각각의 text를 구성한 뒤, text encoder, linear projection을 통해 각각의 feature를 추출
3. 1의 image feature와 2의 모든 label에 해당하는 text feature간의 similarity를 계산하고, 가장 유사도가 높은 text의 label을 출력

younnggsuk commented 6 months ago

Other Details

Zero-shot Transfer
- CLIP에서 말하는 zero-shot은 단순히 학습하지 않고도 잘맞춘다는 의미가 아님
- CLIP에서 말하는 zero-shot transfer는 모델의 task-learning capability를 의미하는 것으로, 이는 여러 task에 대한 일반화 성능을 의미함
- 즉, CLIP을 여러 computer vision dataset에서 실험한 이유는 각각의 dataset을 일종의 task로 바라보고 수많은 task에서 CLIP이 잘 동작하는가?를 실험하고자 한것이며, 이러한 실험을 통해 task-learning capability를 측정하고자 한 것임
Prompt engineering & ensembling
- A photo of a {object}와 같은 prompt template에 따라 성능이 약간씩 차이가 났고, 여러 prompt를 ensemble하면 성능이 더 개선되었다고 함
Representation learning
- Clip의 representation을 기존 cnn 계열들과 비교하기 위해 linear probing 실험을 했는데, 이때는 image encoder의 출력(linear projection 전)만을 사용
- ImageNet 모델의 feature 대비 대부분의 dataset에서 CLIP feature가 좋은 성능을 보였음
Robustness to Natural Distribution Shift
- Zero-shot CLIP이 다른 ImageNet 모델 대비 distribution shift에 더 robust함
- Few-shot CLIP(CLIP feature에 logistic regression classifier 붙이는 방식으로 supervised few-shot으로 학습)이 기존 ImageNet 모델 대비 동일한 성능에서 더 distribution shift에 robust함
- 그러나 당연히 few-shot CLIP이 zero-shot CLIP보다는 distribution shift에서 덜 robust함 (in-distribution에서 성능은 데이터 수를 늘리면 당연히 few-shot CLIP이 더 좋음)

younnggsuk / Paper-Review

Learning Transferable Visual Models From Natural Language Supervision #8

Learning Transferable Visual Models From Natural Language Supervision

TL;DR

Review

Method Details

Other Details