Open hkiyomaru opened 2 weeks ago
LLM-jp-3 172B の推論サーバーを立てて、探索的な分析に役立てる
LLM-jp-3 172B の推論サーバーを立てる.mdx では1ノード(A100 40GB x8)にモデルが乗り切らず、CPU offloading を行うと推論速度が著しく低下するため,マルチノードの pipeline parallel で推論を行う.vLLM がマルチノードでの推論をサポートしているのでそれを試す.
Overview
LLM-jp-3 172B の推論サーバーを立てて、探索的な分析に役立てる
Details
LLM-jp-3 172B の推論サーバーを立てる.mdx では1ノード(A100 40GB x8)にモデルが乗り切らず、CPU offloading を行うと推論速度が著しく低下するため,マルチノードの pipeline parallel で推論を行う.vLLM がマルチノードでの推論をサポートしているのでそれを試す.
Resources