Open AkihikoWatanabe opened 2 days ago
通常LLMはtransformer decoderのブロックをstackすることで形成されるが、積み上げたブロック、あるいはlayerってほんとに全部必要なの?という疑問に答えてくれる論文のようである。
transformer blockそのもの、あるいはMLP layerを削除するとpeformanceは大幅に低下するが、attention layerを削除してもperformanceの低下が起きなかった模様。これにより高速化が実現可能。
削除するブロックやlayerはinputとoutputのコサイン類似度が高いものを削除することによって実現。
比較的パラメータサイズが小さい7B, 13Bモデルでの実験結果
より大きなモデルでの実験結果
パフォーマンスが変わらない範囲だと、attention layer dropにより、7B, 13Bモデルの場合は23%程度、70Bの場合は35%のスループット向上
URL
Affiliations
Abstract
Translation (by gpt-4o-mini)
Summary (by gpt-4o-mini)