mjx-project / mjx

Mjx: A framework for Mahjong AI research

https://colab.research.google.com/drive/1m1wOT_K2YFtuV6IO7VgWk4ilVhTKqRFU?usp=sharing

MIT License

170 stars 19 forks source link

Train reward-shaping model with large data #1134

Closed nissymori closed 2 years ago

nissymori commented 2 years ago

1127

nissymori commented 2 years ago

データ数: 17369 learning rate: 0.001 epoch数: 50 batch size 16 で学習させて, 局数と自分の点数を変化させてプロットしてみました. 局ごとの変化がないのが気になるので, 調査しようと思います.

スクリーンショット 2022-09-04 19 46 10

nissymori commented 2 years ago

データ数, learning rateは同じで, epoch数を200, batch sizeを32にすると割と局ごとの差も出て良い感じな気がします.

スクリーンショット 2022-09-04 20 04 03

sotetsuk commented 2 years ago

局もonehotを加えるか置き換えるかしてみてもいいかも？

sotetsuk commented 2 years ago

あとは学習曲線がどんな感じかにもよる気がします

nissymori commented 2 years ago

了解です！

sotetsuk commented 2 years ago

あとたぶんデータ全然足りない気がしますね

sotetsuk commented 2 years ago

Epoch数50はもう結果を覚えてるのでは？バリデーションセット用意しました？

nissymori commented 2 years ago

Epoch数50はもう結果を覚えてるのでは？バリデーションセット用意しました？

とりあえずlossが下がるかを確認するためだったので, 用意していませんでした. データ増やしてvalidation setも用意してやってみようと思います！

nissymori commented 2 years ago

ToDo

[x] plot learning curve
[x] increase data
[x] validation

nissymori commented 2 years ago

validation dataを追加して訓練してみました. learning rate 0.002, epoch 30, バッチサイズ 64です.

データ数はまだ32000ほどです.

スクリーンショット 2022-09-08 15 11 01 スクリーンショット 2022-09-08 15 13 30

nissymori commented 2 years ago

[x] Readme書く.
[ ] データ数を増やす.
[x] 点でプロット
[x] 南3 or 南4専用と比べる.

nissymori commented 2 years ago

南四局と途中で終わっている場合は最終局のみのデータを使って学習させた結果と学習曲線です. epoch数は10です.

局をランダムに選んだ場合とあまり違いがない様に思います. 何四局なのでもっと単関数みたいにならないとおかしい気がします. バグがないか調べてみます.

一旦10万くらいまでデータを増やしてみます.

スクリーンショット 2022-09-09 11 45 48 スクリーンショット 2022-09-09 11 45 33

nissymori commented 2 years ago

試しに1000epochくらい学習させてみました. 直感に近づいている気がします. val lossは悪化していますが.

とりあえずデータ増やしてみます.

スクリーンショット 2022-09-09 12 01 34

スクリーンショット 2022-09-09 12 01 24

nissymori commented 2 years ago

変更点

特徴量として残りの親の数を追加する.
風の情報を
出力は4次元[起家, ..ラス親]
NNは8個用意するmodel_0, ...model_7

procedure

南4のデータから順位点をmodel_7に予測させる
南３のデータのmodel_7の予測結果をmodel_6に予測させる.
以下繰り返す.

ToDo

[x] 特徴量実装
[x] 特徴量テスト
[ ] 訓練関数実装
[ ] 訓練関数テスト
[ ] plot関数実装
[ ] plot関数テスト
[ ] コマンドライン整備
[ ] 実験

nissymori commented 2 years ago

特徴量再考

出力を四次元にするのでそれに伴って特徴量設計を変えた方が良い.

4人分の点 [起家, ..ラス親]の順で与える.(今まではtargetを起点にしていた)
本場: 変更なし
詰み棒: 変更なし
局: 変更なし
風: one-hotで四人分? 起家の風だけone-hotでもいい気がする.
親: one-hot
残りの親の数: 起家から順番に

nissymori commented 2 years ago

@sotetsuk 長くなってきたので, 一旦このPRマージしてしまってもよろしいでしょうか.

sotetsuk commented 2 years ago

Typo suphx（suphnxがある）

マージしちゃって下さい！@nissymori

nissymori commented 2 years ago

Typo suphx（suphnxがある）

マージしちゃって下さい！@nissymori

ありがとうございます！

typo直してmergeします！