long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[106] Prefix-Tuning: Optimizing Continuous Prompts for Generation #115

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

image

PLM이 따로 있고 prefix를 위한 hidden 차원의 matrix $P_\theta $가 있는 형태

image image

smaller matrix $P\theta '$에서 시작해서 MLP로 size 키우는게 더 성능이 좋았다. 학습하고 나서는 $P\theta '$없이 바로 prefix $P_\theta $를 사용하면 된다

Results

image

Ablations

태스크와 관련 없는 "elephant" 같은 것도 random 보다 나았다. full일때는 Initialize에 크게 영향 받지 않았다.