[34] Rethinking Visual Prompt Learning as Masked Visual Token Modeling

Abstract

NLP에서 Large-scale pre-trained model을 활용해서 prompt learning을 하는 것이 성공적이었다. 이 경우 downstream task를 generative pre-training으로 reformulate한다.
하지만, vision의 경우 visual prompt learning 방법론들이 discriminative pre-trained model로 디자인되었기 때문에 pre-training과 downstream task 간의 통합을 위한 careful design이 부족하고 pre-training과 downstream task 간 통합이 부족했다.
본 논문에서는 Visual Prompt Learning을 masked visual Token Modeling(VPTM)으로 보고 downstream visual classification을 pre-trained masked visual token prediction으로 전환한다.
- prototypical verbalizer를 두어서 implicit semantics인 predicted visual token을 explicit downstream label로 매핑한다.
- VPTM은 최초로 generative pre-trained visual model에 대한 visual prompt method이며, task reformulation을 통해 최초로 pre-training과 downstream visual classification 사이의 consistency를 수행한다.

NLP 에서는 'Pre-train, then fine-tune' 패러다임에서 'pre-train, prompt, then predict' 패러다임으로 변화하였다. (different task-specific objective를 설계해줘야 해서 prohibitive 하다는 문제가 있었기 때문)
GPT3과 같이 generative pre-trained models를 바탕으로 downstream task를 마치 pre-training language modeling tasks로 해결한다.
이러한 방식으로 pre-trained modeld의 knowledge는 pre-training tasks와 동일한 objectives를 활용하게 된다.

이에 대한 예시로 Masked Language Modeling(MLM) pretrained task에서 classification task에 대해 'cloze prompt'로 reformulate된다.
input에 mask prompt를 넣고 prompt tuning을 수행하고 masking 된 부분의 단어를 맞추고 verbalizer를 통해 predicted words를 downstream label과 매칭한다.
VPT의 경우 ViT에 prepend하는 식으로 discriminative 방식으로 설계되었고 Visual prompting의 경우 CLIP을 써서 visual prompt learning을 수행한다. 하지만 task reformulation을 통해 pretraining과 downstream applications를 통합하기 위해 consistency를 달성하는 연구는 시도되지 않았다.