llm-jp / experiments

Issue-Only Pretrain Task Management Repository
0 stars 0 forks source link

[評価] - LLM-jp-3 172B の推論サーバーのホスティング #75

Open hkiyomaru opened 2 weeks ago

hkiyomaru commented 2 weeks ago

Overview

LLM-jp-3 172B の推論サーバーを立てて、探索的な分析に役立てる

Details

LLM-jp-3 172B の推論サーバーを立てる.mdx では1ノード(A100 40GB x8)にモデルが乗り切らず、CPU offloading を行うと推論速度が著しく低下するため,マルチノードの pipeline parallel で推論を行う.vLLM がマルチノードでの推論をサポートしているのでそれを試す.

Resources