sy00n / DL_paper_review

issues에 논문 요약
0 stars 0 forks source link

[35] Generating Instance-level Prompts for Rehearsal-free Continual Learning #40

Open sy00n opened 7 months ago

sy00n commented 7 months ago

요약

Introduction

existing prompt-based CL methods의 한계

  1. target domain에 대해 하이퍼파라미터 튜닝을 해야함. : 기존 연구의 경우 prompt pool, domain coverage를 사전에 정하고 시작해야하는데, CL setup에서 target domain에 대한 prior knowledge가 있다고 가정하는 것은 unrealistic 하다.
  2. prompt pool이 커지면 memory budget도 증가함.
  3. 전체 인스턴스 수 보다 prompt 수가 더 적음. group-level fashion으로 업뎃해가기 때문에 per data instance를 위한 학습이 어렵게 되고 domain generalization이 떨어지는 결과로 이어짐.

Method

Motivation

Approach

image image

즉, feature-wise transformation framework (LT)으로 affine transformation을 수행해서 conditional input embedding에 해당하는 scaling 파라미터, shifting 파라미터를 업데이트 함.

image

그다음 식 5처럼 task embedding을 써서 task-relevant instructions도 얻음. 이 경우 DualPrompt와 동일한 방식하지만, 명확히 다른 점은 DualPrompt는 prompt pool에서 prompt를 select 하는 용도로 식 5를 수행하지만, 본 논문에서는 supplementary instruction을 임베딩해서 instance-level prompt를 보완하는 역할임.

Optimization of DAP

image

Transformer layer 각각에 대해 separate generator를 씀. 여기서는 single adaptively generated prompt로 업데이트 해가니까 L2P나 DualPrompt에서의 prompt수를 1로 보면 됨.

image

최종 loss는 위처럼 CE loss + matching loss임.