[123] Robust fine-tuning of zero-shot models

paper

TL;DR

I read this because.. : CLIP pretrained 능력을 잃어버리지 않으면서 보수적으로 학습하기 위한 method. LiT 관련 논문 찾다가 찾음
task : CLIP
problem : CLIP에서 reference 도메인에 대해 finetuning을 하면 CLIP에서 원래 학습된 general domain에 대한 지식을 잃어버릴 수도
idea : CLIP zero-shot 능력과 target domain에 finetune한 모델을 앙상블 하자 -> weight interpolate를 통해 앙상블하자!
input/output : {image, text} -> score
architecture : CLIP, ViT, BASIC-L
objective : InfoNCE
baseline : zs-CLIP, finetuned CLIP.
data : WIT(clip), JFT-300M(vit) -> ImageNet, ImageNetV2, ImageNet-R, ImageNet sketch, ObjectNet, ImageNet-A
evaluation : 원래 도메인과 shift된 도메인에서의 정확도.
result : ImageNet 성능을 유지하면서도 domain shift가 있는 애들한테도 성능 개선
contribution : 간단한 아이디어 + implement 하기 쉬우면서도 성능이 좋음
etc. :

Details

Related work

Stochastic Weight Averaging https://arxiv.org/pdf/1803.05407.pdf

param의 moving average를 쓰는게 일종의 ensemble 효과를 가지고 있다

domain shift data

Weight-space ensemble for finetuning

너무 간단.. 1) pretrianed CLIP을 가지고 와서 target domaind에 대해서 ft. fully ft(end-to-end)할 수도 있고 마지막 classifier만 할수도 있다(LC) 2) mixing coefficient를 두고 각 element-wise로 average를 구한다

여기서 alpha는 greedy하게 찾아야 하나 0.5로 설정했을 때 optimum이랑 거의 비슷하게 나왔다.

Result

첫번째 그림 : x축은 ImageNet(reference distribution)이고 y축은 distribution shift가 있는 데이터셋들 보라색이 zs clip 성능이고 파란색이 그냥 그 데이터로 학습한 애들. 주황색이 그 데이터로 finetune 한 애들 두번째 그림 : Wise-FT를 하면 reference 정확도 감소 없이 distribution shift 있는 애들 성능을 늘릴 수 있음