mjx-project / mjx

Mjx: A framework for Mahjong AI research
https://colab.research.google.com/drive/1m1wOT_K2YFtuV6IO7VgWk4ilVhTKqRFU?usp=sharing
MIT License
170 stars 19 forks source link

Train reward-shaping model with large data #1134

Closed nissymori closed 2 years ago

nissymori commented 2 years ago

1127

nissymori commented 2 years ago

データ数: 17369 learning rate: 0.001 epoch数: 50 batch size 16 で学習させて, 局数と自分の点数を変化させてプロットしてみました. 局ごとの変化がないのが気になるので, 調査しようと思います.

スクリーンショット 2022-09-04 19 46 10

nissymori commented 2 years ago

データ数, learning rateは同じで, epoch数を200, batch sizeを32にすると割と局ごとの差も出て良い感じな気がします.

スクリーンショット 2022-09-04 20 04 03

sotetsuk commented 2 years ago

局もonehotを加えるか置き換えるかしてみてもいいかも?

sotetsuk commented 2 years ago

あとは学習曲線がどんな感じかにもよる気がします

nissymori commented 2 years ago

了解です!

sotetsuk commented 2 years ago

あとたぶんデータ全然足りない気がしますね

sotetsuk commented 2 years ago

Epoch数50はもう結果を覚えてるのでは?バリデーションセット用意しました?

nissymori commented 2 years ago

Epoch数50はもう結果を覚えてるのでは?バリデーションセット用意しました?

とりあえずlossが下がるかを確認するためだったので, 用意していませんでした. データ増やしてvalidation setも用意してやってみようと思います!

nissymori commented 2 years ago

ToDo

nissymori commented 2 years ago

validation dataを追加して訓練してみました. learning rate 0.002, epoch 30, バッチサイズ 64です.

データ数はまだ32000ほどです.

スクリーンショット 2022-09-08 15 11 01 スクリーンショット 2022-09-08 15 13 30

nissymori commented 2 years ago
nissymori commented 2 years ago

南四局と途中で終わっている場合は最終局のみのデータを使って学習させた結果と学習曲線です. epoch数は10です.

局をランダムに選んだ場合とあまり違いがない様に思います. 何四局なのでもっと単関数みたいにならないとおかしい気がします. バグがないか調べてみます.

一旦10万くらいまでデータを増やしてみます.

スクリーンショット 2022-09-09 11 45 48 スクリーンショット 2022-09-09 11 45 33

nissymori commented 2 years ago

試しに1000epochくらい学習させてみました. 直感に近づいている気がします. val lossは悪化していますが.

とりあえずデータ増やしてみます.

スクリーンショット 2022-09-09 12 01 34

スクリーンショット 2022-09-09 12 01 24

nissymori commented 2 years ago

変更点

procedure

ToDo

nissymori commented 2 years ago

特徴量再考

出力を四次元にするのでそれに伴って特徴量設計を変えた方が良い.

nissymori commented 2 years ago

@sotetsuk 長くなってきたので, 一旦このPRマージしてしまってもよろしいでしょうか.

sotetsuk commented 2 years ago

Typo suphx(suphnxがある)

マージしちゃって下さい!@nissymori

nissymori commented 2 years ago

Typo suphx(suphnxがある)

マージしちゃって下さい!@nissymori

ありがとうございます!

typo直してmergeします!