AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

What Matters in Transformers? Not All Attention is Needed, Shwai He+, N/A, arXiv'24 #1467

Open AkihikoWatanabe opened 2 days ago

AkihikoWatanabe commented 2 days ago

URL

AkihikoWatanabe commented 2 days ago

通常LLMはtransformer decoderのブロックをstackすることで形成されるが、積み上げたブロック、あるいはlayerってほんとに全部必要なの?という疑問に答えてくれる論文のようである。

transformer blockそのもの、あるいはMLP layerを削除するとpeformanceは大幅に低下するが、attention layerを削除してもperformanceの低下が起きなかった模様。これにより高速化が実現可能。

削除するブロックやlayerはinputとoutputのコサイン類似度が高いものを削除することによって実現。

image

image

比較的パラメータサイズが小さい7B, 13Bモデルでの実験結果 image

より大きなモデルでの実験結果 image

AkihikoWatanabe commented 2 days ago

パフォーマンスが変わらない範囲だと、attention layer dropにより、7B, 13Bモデルの場合は23%程度、70Bの場合は35%のスループット向上