long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[123] Robust fine-tuning of zero-shot models #134

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

Related work

image

param의 moving average를 쓰는게 일종의 ensemble 효과를 가지고 있다

domain shift data

image

Weight-space ensemble for finetuning

너무 간단.. 1) pretrianed CLIP을 가지고 와서 target domaind에 대해서 ft. fully ft(end-to-end)할 수도 있고 마지막 classifier만 할수도 있다(LC) 2) mixing coefficient를 두고 각 element-wise로 average를 구한다

image

여기서 alpha는 greedy하게 찾아야 하나 0.5로 설정했을 때 optimum이랑 거의 비슷하게 나왔다.

Result

image

첫번째 그림 : x축은 ImageNet(reference distribution)이고 y축은 distribution shift가 있는 데이터셋들 보라색이 zs clip 성능이고 파란색이 그냥 그 데이터로 학습한 애들. 주황색이 그 데이터로 finetune 한 애들 두번째 그림 : Wise-FT를 하면 reference 정확도 감소 없이 distribution shift 있는 애들 성능을 늘릴 수 있음

image

finetune 한것들 보면 distribution shift 있는것들 성능이 떨어짐 제안한 WISE-FT 보면 reference domain에서도 성능이 ft보다 더 좋아지고 (86.2 -> 87.1) distribution shift가 있는 애들도 좋아짐

image

clip자체가 hparam에 따라 성능이 너무 흔들리는 경향성 -> weight-space ensemble 하면 frontier!

image

각각의 도메인에 대해 finetuning 한 것보다 성능이 좋음!

Analysis

image

zero-shot과 linear classifier는 경향이 달랐고 linear-classifier 끼리는 경향이 비슷했다. -> 더 큰 앙상블 효과가 있었던 듯 하다

image

output을 ensemble하는 것보다 weight ensemble하는게 더 성능개선이 좋았다!