Overview

LLM-jp-3 1.8B のリリース済みcheckpointである、llm-jp/llm-jp-3-1.8bにDrop-Upcycling (r=0.5)を適用をし, 8x1.8Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う

Details

Drop-Upcycling (r=0.5)の初期化方法に関しては、先にアブレーションを行う。アブレーションパターンに関しては、LLM-JP-MoE-2024年度後期実験計画のBaseline2に詳細を記載

計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: gpu-small (H100x8)
- ノード台数: 8
コード
- リポジトリ: https://github.com/llm-jp/moe-recipes/tree/sakura
- コミット: 0860594e0e278d4b9cea547adb5d0177f0648a38
入力データ:
- LLM-jp v3.1 コーパス: sakura:/data/llm-jp-corpus/v3.{0,1}.0
出力データ:
- 保存先:
- sakura:/data/experiments/0061_v3-8x1.8b-exp2
- sakura:/home/shared/experiments/0061_v3-8x1.8b-exp2
- データ内訳:
- Zero3 checkpoint: FIXME TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/llm-jp/v3-8x1.8b
開始日: 2024-10-DD
終了予定日: 2024-MM-DD （バッファ期間を含む）