[35] Generating Instance-level Prompts for Rehearsal-free Continual Learning

요약

기존 prompt pool을 쓰는 연구들은 group-level instructions에 대해 inherent encoding을 하기 때문에 pre-training과 continual learning 사이의 domain scalability 문제가 발생한다는 점을 지적함.
따라서 본 논문에서는 adpative prompt generator를 학습시켜서 각각의 인풋에 대해 instance-specific fine-grained instructions를 만드는 방식으로 위 문제를 해결함.
Poolless instance-level prompts로 설계해서 conditional transposed input의 instance-specific information을 학습함. (보자마자 든 생각은 마치 CoCoOp 논문에서 meta token을 추가로 학습시켜서 각 instance에 대해 condition된 prompt를 설계해서 generability를 확보하는 흐름이랑 비슷한 것 같음.)

Introduction

L2P나 dualprompt의 경우 ImageNet-pretrained ViT as a frozen feature extractor를 쓰기 때문에 natural image로만 제한되어 있고 CL에서의 data domain에 대한 가정이 없다. CL task의 경우 다양한 level의 domain similiarity를 가지는 이미지들로 구성될 수 있기 때문에 prompt가 domain-relevant knowledge를 학습할 수 있어야 한다고 지적함.

existing prompt-based CL methods의 한계

target domain에 대해 하이퍼파라미터 튜닝을 해야함. : 기존 연구의 경우 prompt pool, domain coverage를 사전에 정하고 시작해야하는데, CL setup에서 target domain에 대한 prior knowledge가 있다고 가정하는 것은 unrealistic 하다.
prompt pool이 커지면 memory budget도 증가함.
전체 인스턴스 수 보다 prompt 수가 더 적음. group-level fashion으로 업뎃해가기 때문에 per data instance를 위한 학습이 어렵게 되고 domain generalization이 떨어지는 결과로 이어짐.

Method

Motivation

L2P나 dualprompt의 경우 pool size M을 정해두고 prompt pool을 구성하는데 각각 다른 방식으로 이 pool에서 select을 해서 input token에 prepend하는 식임.
- 하지만 여기서 가장 큰 motivation이 되었던 점은 prompt pool의 limited scalability임.
- poolsize를 predefine하게 되면 pool size가 training instances 수 보다 훨씬 적기 때문에 available prompts를 제한하게 되고 group-wise fasion으로 optimize를 수행하게 됨.
- 현실 CL시나리오에서는 source와 target domain의 domain gap이 매우 클 수 있기 때문에 fine-grained instruction을 인코드 할 수 있어야 함. 하지만 prompt pool의 경우 오직 poolsize 만큼에 해당하는 constrained partial knowledge를 학습하게 된다는 문제가 있음.
- 이로 인해 하이퍼파라미터 튜닝에 더더욱 종속적이게 됨. (pool size 등)

Approach

식 7처럼 Domain-adaptive Prompt (DAP)은 adaptive prompt generator( LN, MLP, and a linear transformation layer (LT)로 구성)로 affine transformation parameters 학습해서 conditioning 함.
이렇게 만들어진 instance-level fine-grained instruction이 correct prediction을 하려면 패치 개별적인 고려 보다는 각 인풋 패치들 간 상관관계를 고려해야 함. 따라서 normalization 수행하고 나서 한번 transpose 시킨 다음에 MLP layer에 feed해서 학습됨. -> 이렇게 한번 학습함으로써 instance-wise domain-related knowledge를 더 잘 확보할 수 있음. catastrophic forgetting 때문에 이 MLP층은 학습 에폭을 어느정도 수행하고 나면 frozen시킴.

즉, feature-wise transformation framework (LT)으로 affine transformation을 수행해서 conditional input embedding에 해당하는 scaling 파라미터, shifting 파라미터를 업데이트 함.

그다음 식 5처럼 task embedding을 써서 task-relevant instructions도 얻음. 이 경우 DualPrompt와 동일한 방식하지만, 명확히 다른 점은 DualPrompt는 prompt pool에서 prompt를 select 하는 용도로 식 5를 수행하지만, 본 논문에서는 supplementary instruction을 임베딩해서 instance-level prompt를 보완하는 역할임.

Optimization of DAP

Transformer layer 각각에 대해 separate generator를 씀. 여기서는 single adaptively generated prompt로 업데이트 해가니까 L2P나 DualPrompt에서의 prompt수를 1로 보면 됨.

최종 loss는 위처럼 CE loss + matching loss임.

sy00n / DL_paper_review