llm-jp / experiments

Issue-Only Pretrain Task Management Repository
0 stars 0 forks source link

[事前学習] - 継続事前学習の学習率スケジューリング検討(v3 1.7B exp2ベース) #38

Open Taka008 opened 2 months ago

Taka008 commented 2 months ago

Overview

継続事前学習における有効な学習率のスケジューリングを比較検討する

Details

2.1T トークン学習した v3 1.7B exp2 に対して同じコーパスを用いて継続事前学習を試みる

30 にて学習率を 3e-5 で固定して学習した結果 train loss は若干上がり,llm-jp-eval のスコアはほぼ変わらないか,若干悪化した

同じコーパスを用いて継続事前学習をする場合一般的には train loss は下がるはずなので,train loss がきちんと下がるような学習率のスケジューリングを検討する

Resources