Overview

LLM-jp-3 172B の推論サーバーを立てて、探索的な分析に役立てる

Details

LLM-jp-3 172B の推論サーバーを立てる．mdx では1ノード（A100 40GB x8）にモデルが乗り切らず、CPU offloading を行うと推論速度が著しく低下するため，マルチノードの pipeline parallel で推論を行う．vLLM がマルチノードでの推論をサポートしているのでそれを試す．

Resources

計算機
- クラスタ: mdx
- ノード種別: llm-jp-nvlink (A100x8)
- ノード台数: 2
コード
- リポジトリ: FIXME
- コミット: FIXME
評価データ:
- N/A
出力データ:
- N/A
W&B ログ:
- N/A
開始日: 2024-11-08
終了予定日: 2024-11-08

llm-jp / experiments

[評価] - LLM-jp-3 172B の推論サーバーのホスティング #75

Overview

Details

Resources