Overview

LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う

Details

Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画のBaseline2に詳細を記載 Megatron-LMでの学習

計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: gpu-small (H100x8)
- ノード台数: 8
コード
- リポジトリ: https://github.com/llm-jp/Megatron-LM/tree/1250d2cbeb8686171a5ab026d1fc40a25b625bc5
- コミット: 1250d2cbeb8686171a5ab026d1fc40a25b625bc5
入力データ:
- LLM-jp v3.1 コーパス: sakura:/data/llm-jp-corpus/v3.{0,1}.0
出力データ:
- 保存先:
- sakura:/data/experiments/0072_v3-8x1.8b-exp2
- sakura:/home/shared/experiments/0072_v3-8x1.8b-exp2
- データ内訳:
- Zero3 checkpoint: FIXME TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/llm-jp/v3-8x1.8b
開始日: 2024-10-DD
終了予定日: 2024-MM-DD （バッファ期間を含む）