DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06

AkihikoWatanabe / paper_notes

たまに追加される論文メモ

https://AkihikoWatanabe.github.io/paper_notes

17 stars 0 forks source link

Open AkihikoWatanabe opened 2 months ago

AkihikoWatanabe commented 2 months ago

AkihikoWatanabe commented 2 months ago

vllmを使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。（図はブログ中より引用）

AkihikoWatanabe commented 2 months ago

こちらも参照のこと vLLMの仕組みをざっくりと理解する：https://dalab.jp/archives/journal/vllm/#PagedAttention