AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
13 stars 0 forks source link

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, N/A, arXiv'24 #1270

Open AkihikoWatanabe opened 2 months ago

AkihikoWatanabe commented 2 months ago

URL

AkihikoWatanabe commented 2 months ago

参考: https://x.com/hillbig/status/1776755029581676943?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

AkihikoWatanabe commented 2 months ago

論文中のFigure1が非常にわかりやすい。 image

AkihikoWatanabe commented 2 months ago

GQA #1271 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモデルの場合は、GQAで8倍キャッシュを圧縮した上で、DMCで追加で2倍圧縮をかけたところ、同等のパフォーマンスを実現している。 image