llm-jp / experiments

Issue-Only Pretrain Task Management Repository

0 stars 0 forks source link

[事前学習] - 継続事前学習の学習率スケジューリング検討（v3 1.7B exp2ベース） #38

Open Taka008 opened 2 months ago

Taka008 commented 2 months ago

Overview

継続事前学習における有効な学習率のスケジューリングを比較検討する

Details

2.1T トークン学習した v3 1.7B exp2 に対して同じコーパスを用いて継続事前学習を試みる

30 にて学習率を 3e-5 で固定して学習した結果 train loss は若干上がり，llm-jp-eval のスコアはほぼ変わらないか，若干悪化した

同じコーパスを用いて継続事前学習をする場合一般的には train loss は下がるはずなので，train loss がきちんと下がるような学習率のスケジューリングを検討する

Resources

計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: gpu-small (H100x8)
- ノード台数: 2 - 8
コード
- リポジトリ: FIXME https://github.com/{org}/{repo}
- コミット: FIXME xxxxxx
入力データ:
- {name}: {physical path}
出力データ:
- 保存先: {cluster}:/data/experiments/{number}
- データ内訳:
- {name}: xxx TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/{team}/{project} FIXME
開始日: 2024-09-13
終了予定日: YYYY-MM-DD （バッファ期間を含む）