Geson-anko / RWKV-ReImpl

Reproducible implementation and Test of RWKV
6 stars 1 forks source link

2023/05/08のRWKVの学習 #24

Closed Geson-anko closed 1 year ago

Geson-anko commented 1 year ago

概要

学習率の指数減衰を行うLambdaLRSchedulerの関数を追加。Warmup機能も一応つけました。 その他、パフォーマンスのチューニングを行っています。 screenの依存関係を追加しました。screenコマンドで仮想シェルに入るとSSHを切っても処理を続けてくれます。 差分がたくさんあってすみません。

注意

学習の途中でlossがnanになります。パラメータの値が爆発してしまったかもしれないです。学習率を下げると単にNaNが出るタイミングが遅くなるだけでした。

Submit前の確認項目

補足