Open odashi opened 6 days ago
学習済みの事前学習モデルについて、直前 $N$ チェックポイントの平均を用いて平均化モデルを作成する。 作成したモデルは通常通り #60 で検証する。
$N$ は2から順に大きな値で試す。 1.8B, 3.7B, 7.2B, 13Bで実験を行い、可能なら172Bでも実施
sakura:/data/experiments/0085_averaging
Overview
学習済みの事前学習モデルについて、直前 $N$ チェックポイントの平均を用いて平均化モデルを作成する。 作成したモデルは通常通り #60 で検証する。
Details
$N$ は2から順に大きな値で試す。 1.8B, 3.7B, 7.2B, 13Bで実験を行い、可能なら172Bでも実施
Resources
sakura:/data/experiments/0085_averaging