param의 moving average를 쓰는게 일종의 ensemble 효과를 가지고 있다
domain shift data
Weight-space ensemble for finetuning
너무 간단..
1) pretrianed CLIP을 가지고 와서 target domaind에 대해서 ft. fully ft(end-to-end)할 수도 있고 마지막 classifier만 할수도 있다(LC)
2) mixing coefficient를 두고 각 element-wise로 average를 구한다
여기서 alpha는 greedy하게 찾아야 하나 0.5로 설정했을 때 optimum이랑 거의 비슷하게 나왔다.
Result
첫번째 그림 : x축은 ImageNet(reference distribution)이고 y축은 distribution shift가 있는 데이터셋들
보라색이 zs clip 성능이고 파란색이 그냥 그 데이터로 학습한 애들. 주황색이 그 데이터로 finetune 한 애들
두번째 그림 : Wise-FT를 하면 reference 정확도 감소 없이 distribution shift 있는 애들 성능을 늘릴 수 있음
finetune 한것들 보면 distribution shift 있는것들 성능이 떨어짐
제안한 WISE-FT 보면 reference domain에서도 성능이 ft보다 더 좋아지고 (86.2 -> 87.1) distribution shift가 있는 애들도 좋아짐
clip자체가 hparam에 따라 성능이 너무 흔들리는 경향성 -> weight-space ensemble 하면 frontier!
각각의 도메인에 대해 finetuning 한 것보다 성능이 좋음!
Analysis
zero-shot과 linear classifier는 경향이 달랐고 linear-classifier 끼리는 경향이 비슷했다. -> 더 큰 앙상블 효과가 있었던 듯 하다
output을 ensemble하는 것보다 weight ensemble하는게 더 성능개선이 좋았다!
paper
TL;DR
Details
Related work
param의 moving average를 쓰는게 일종의 ensemble 효과를 가지고 있다
domain shift data
Weight-space ensemble for finetuning
너무 간단.. 1) pretrianed CLIP을 가지고 와서 target domaind에 대해서 ft. fully ft(end-to-end)할 수도 있고 마지막 classifier만 할수도 있다(LC) 2) mixing coefficient를 두고 각 element-wise로 average를 구한다
여기서 alpha는 greedy하게 찾아야 하나 0.5로 설정했을 때 optimum이랑 거의 비슷하게 나왔다.
Result
첫번째 그림 : x축은 ImageNet(reference distribution)이고 y축은 distribution shift가 있는 데이터셋들 보라색이 zs clip 성능이고 파란색이 그냥 그 데이터로 학습한 애들. 주황색이 그 데이터로 finetune 한 애들 두번째 그림 : Wise-FT를 하면 reference 정확도 감소 없이 distribution shift 있는 애들 성능을 늘릴 수 있음
finetune 한것들 보면 distribution shift 있는것들 성능이 떨어짐 제안한 WISE-FT 보면 reference domain에서도 성능이 ft보다 더 좋아지고 (86.2 -> 87.1) distribution shift가 있는 애들도 좋아짐
clip자체가 hparam에 따라 성능이 너무 흔들리는 경향성 -> weight-space ensemble 하면 frontier!
각각의 도메인에 대해 finetuning 한 것보다 성능이 좋음!
Analysis
zero-shot과 linear classifier는 경향이 달랐고 linear-classifier 끼리는 경향이 비슷했다. -> 더 큰 앙상블 효과가 있었던 듯 하다
output을 ensemble하는 것보다 weight ensemble하는게 더 성능개선이 좋았다!