Open long8v opened 1 year ago
paper
PLM이 따로 있고 prefix를 위한 hidden 차원의 matrix $P_\theta $가 있는 형태
smaller matrix $P\theta '$에서 시작해서 MLP로 size 키우는게 더 성능이 좋았다. 학습하고 나서는 $P\theta '$없이 바로 prefix $P_\theta $를 사용하면 된다
태스크와 관련 없는 "elephant" 같은 것도 random 보다 나았다. full일때는 Initialize에 크게 영향 받지 않았다.
prompt 길이는 task 마다 성능의 상향선이 있었다 요약은 200 / table to text는 10
prompt를 앞에 두는 prefix 형태가 $[x; prompt; y]$ 형태인 infix보다 성능이 좋았다.
paper
TL;DR
Details
PLM이 따로 있고 prefix를 위한 hidden 차원의 matrix $P_\theta $가 있는 형태
smaller matrix $P\theta '$에서 시작해서 MLP로 size 키우는게 더 성능이 좋았다. 학습하고 나서는 $P\theta '$없이 바로 prefix $P_\theta $를 사용하면 된다
Results
Ablations
태스크와 관련 없는 "elephant" 같은 것도 random 보다 나았다. full일때는 Initialize에 크게 영향 받지 않았다.
prompt 길이는 task 마다 성능의 상향선이 있었다 요약은 200 / table to text는 10
prompt를 앞에 두는 prefix 형태가 $[x; prompt; y]$ 형태인 infix보다 성능이 좋았다.