AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 #1343

Open AkihikoWatanabe opened 2 months ago

AkihikoWatanabe commented 2 months ago

https://zenn.dev/rinna/articles/5fd4f3cc12f7c5

AkihikoWatanabe commented 2 months ago

vllmを使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用)

image

AkihikoWatanabe commented 2 months ago

こちらも参照のこと vLLMの仕組みをざっくりと理解する:https://dalab.jp/archives/journal/vllm/#PagedAttention