junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.27k stars 964 forks source link

想请问一下楼主有试过在evaluate的时候用最新训练的model和上一次得到的model做对比吗? #7

Closed Kelvin-Zhong closed 6 years ago

Kelvin-Zhong commented 6 years ago

instead of 和 pure MCTS 最对比,我想这样的话是不是无论在效果优化上会得到提升?并且不需要自己在写一个pure MCTS了。因为个人觉得对于pure MCTS来说,playout的次数增加对提高它胜率是一个diminishing return

我是参考了另一个github的repro https://github.com/suragnair/alpha-zero-general 他们的效果也很不错

BTW, 谢谢楼主po这些代码出来以供学习,本人小白一枚。

junxiaosong commented 6 years ago

AlphaZero算法里本身是没有evaluate环节的(之前的AlphaGo Zero版的算法里有这一环节),我们不断使用最新的模型生成训练数据,所以evaluate这一环节对整个训练过程或者说优化效果方面是没有任何影响的,完全可以删掉的。我这边定期和pure MCTS对比只是为了找一个相对稳定的基准,来观察下训练过程中模型是不是越来越强,仅此而已。