llm-jp / experiments

Issue-Only Pretrain Task Management Repository
0 stars 0 forks source link

[事前学習] - Moving model averaging #85

Open odashi opened 6 days ago

odashi commented 6 days ago

Overview

学習済みの事前学習モデルについて、直前 $N$ チェックポイントの平均を用いて平均化モデルを作成する。 作成したモデルは通常通り #60 で検証する。

Details

$N$ は2から順に大きな値で試す。 1.8B, 3.7B, 7.2B, 13Bで実験を行い、可能なら172Bでも実施

Resources