sy00n / DL_paper_review

issues에 논문 요약
0 stars 0 forks source link

[22] Learning to Prompt for Vision-Language Models #26

Open sy00n opened 9 months ago

sy00n commented 9 months ago

Abstract

Introduction

image fig1처럼 task-relevant context를 추가하는 것이 상당한 성능 향상을 이끄는 결과를 보였다. 그러나, 이런식으로의 extensive한 튜닝의 결과가 과연 downstream task를 위한 최적의 결과일지에 대한 보장 또한 없다.

Method (Context Optimization)

image t = [V]1[V]2 . . . [V]M[CLASS] CLIP에서의 word embedding이랑 동일한 차원의 vector [V]_m(m∈{1, . . . , M})로 prompt를 구성해서 text encoder에 넣는다. 이 때의 M은 context tokens 수를 지정하는 하이퍼파라미터이다. 이 prompt t를 text encoder에 feed하면 visual concept(still from the [EOS]token position)에 해당하는 classification weight vector를 얻게 되면 아래처럼 similarity에 의해 분류를 수행하게 된다. image 이 때 각각의 prompt t_i는 i번째 class name에 해당하는 워드 임베딩 백터로 대체된다.

또, class token을 문장 끝에 두는게 아니라 중간에 두었다. (다른 연구들에서도 flexible을 위해 이렇게 하나..?아님 여기서만?) image

이렇게함으로써 학습의 flexibility를 증가시킨다. (뒤의 cell를 보충 설명으로 채우거나 마침표 같은 종료 신호를 써서 문장을 더 일찍 cut off 할 수 있게 됨)

Class-Specific Context

특정 fine-grained classification task를 위해 class-specific context(CSC)를 구성했다. context vector가 각 class마다 독립적인 경우를 말한다. image

학습은 standard cross-entropy loss로 진행된다.

Discussion

본 접근은 CLIP의 adaptation을 다루기 위한 접근이다. 기존의 prompt learning method들과의 차별점을 정리하면,

  1. backbone architectures가 clip-like model, language model 확실히 다르다. (전자의 경우 visual/textual data를 입력으로 받아서 alignment scores를 구해서 image recognition을 수행한다. 후자의 경우에는 textual data를 다루는 데에만 치중되어 있다.)
  2. pre-training objectives가 다르다. (contrastive learning vs autoregressive learning)

Experiments

image image image