long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[104] GPT Understands, too #113

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

image image

이렇게 학습시킬 때 두가지 문제가 있는데 1) 이미 pretrained LM $\mathcal{M}$의 임베딩 공간 $\mathbf{e}$가 discrete 해서 $h$가 random initialize 되면 small neighborhood 들의 파라미터만 수정되고 local minima에 빠지기 쉽다는 거고 2) prompt 토큰들끼리 dependent 하길 원한다는 점이다. 이를 해결하기 위해 lite한 네트워크 하나를 추가한다.

image

LSTM이 추가되긴 하지만 LM에 비하면 파라미터는 거의 없고 inference 단계에서는 lstm은 그냥 버리고 학습된 임베딩 h만 쓰면 된다.

image

Result

image

p-tuning은 language model의 파라미터는 freeze finetuning을 이기는게 신기하군요

image

후속연구

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 각 레이어마다 prompt token 넣는걸 기존 p-tuning에서 잘 못했던 hard sequence labeling tasks도 잘하는걸 보임 / 작은 모델에서도 동작하는걸 밝힘 https://arxiv.org/pdf/2110.07602.pdf

image