Open Taka008 opened 2 months ago
継続事前学習における有効な学習率のスケジューリングを比較検討する
2.1T トークン学習した v3 1.7B exp2 に対して同じコーパスを用いて継続事前学習を試みる
同じコーパスを用いて継続事前学習をする場合一般的には train loss は下がるはずなので,train loss がきちんと下がるような学習率のスケジューリングを検討する
{physical path}
{cluster}:/data/experiments/{number}
Overview
継続事前学習における有効な学習率のスケジューリングを比較検討する
Details
2.1T トークン学習した v3 1.7B exp2 に対して同じコーパスを用いて継続事前学習を試みる
30 にて学習率を 3e-5 で固定して学習した結果 train loss は若干上がり,llm-jp-eval のスコアはほぼ変わらないか,若干悪化した
同じコーパスを用いて継続事前学習をする場合一般的には train loss は下がるはずなので,train loss がきちんと下がるような学習率のスケジューリングを検討する
Resources
{physical path}
{cluster}:/data/experiments/{number}