long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[105] LoRA: Low-Rank Adaptation of Large Language Models #114

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

image

기본적인 아이디어는 dense한 layer가 더 낮은 rank로 decompose될 수 있다는 아이디어. 어떤 weight W의 update 분인 $\Delta W$를 $BA$ $B\in\mathbb{R}^{d \times r}$, $A\in\mathbb{R}^{r \times k}$로 근사해서 forward를 아래와 같이 만듦

image

이때 A는 random gaussian으로 B는 zero로 initialize됨. 즉 초기 BA는 0이 됨. $\Delta W$는 $\alpha / \gamma$로 업데이트 되는데 $\alpha$가 일종의 learning rate처럼 하이퍼파라미터처럼 사용함. LoRA를 attention을 위한 weight들인 $W_q$, $W_k$, $W_v$, $W_o$에만 적용하고 MLP에는 적용하지 않음.

image

제한된 파라미터 제약 안에서 $W_q$만 적용하는 것보다 rank 4더라도 둘다 적용하는게 좋았고 셋다 적용하는게 가장 좋았음.

image

매우 낮은 rank에서도 잘 작동했고 이는 update matrix $\Delta W$ 가 매우 낮은 intrinsic matrix를 가지고 있다는 뜻임.

image image