Open AkihikoWatanabe opened 2 months ago
https://zenn.dev/rinna/articles/5fd4f3cc12f7c5
vllmを使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用)
こちらも参照のこと vLLMの仕組みをざっくりと理解する:https://dalab.jp/archives/journal/vllm/#PagedAttention
https://zenn.dev/rinna/articles/5fd4f3cc12f7c5