Dataset의 diversity가 높을 경우, visual prompting의 성능이 저하되는 문제를 개선하기 위한 방법으로, DAM-VP(Diversity-Aware Meta Visual Prompting)를 제안
전체 데이터를 split해서 각 split마다 prompt를 학습하는 방식으로 diversity가 높은 데이터에서 성능을 개선하였고, 추가로 prompt initialization에 meta learning(Reptile)을 사용해서 학습이 안정적으로 수렴할 수 있도록 하였음
실험 결과, 기존 방법대비 적은 학습횟수만으로도 빠르게 수렴이 가능하고 diversity가 높은 데이터에서 좋은 성능을 보였음
Review
Head freezing setting 실험 결과를 보면, VP가 VPT보다 성능이 좋고, head tuning setting에서는 VPT가 VP보다 성능이 좋았다는게 흥미로웠음
그런데 사실상 head tuning없이 학습할 때 CLIP text prompting 같이 안쓰면 linear probing 대비 성능이 너무 낮아서, head tuning은 필수일 것 같음
Meta initialization이 성능에 대한 이점보다는 모델 수렴을 빠르고 안정적이게 도와주는데 도움을 주었음
Few-shot일 때의 실험이 없어서 아쉽긴한데, 일단 빠른 수렴의 효과는 있는 것으로 보여서 어느정도(?) 가능성이 있어보임
Diversity-Aware Meta Visual Prompting
TL;DR
Review