想请问一下楼主有试过在evaluate的时候用最新训练的model和上一次得到的model做对比吗？

junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

MIT License

3.27k stars 964 forks source link

想请问一下楼主有试过在evaluate的时候用最新训练的model和上一次得到的model做对比吗？ #7

Closed Kelvin-Zhong closed 6 years ago

Kelvin-Zhong commented 6 years ago

instead of 和 pure MCTS 最对比，我想这样的话是不是无论在效果优化上会得到提升？并且不需要自己在写一个pure MCTS了。因为个人觉得对于pure MCTS来说，playout的次数增加对提高它胜率是一个diminishing return

我是参考了另一个github的repro https://github.com/suragnair/alpha-zero-general 他们的效果也很不错

BTW，谢谢楼主po这些代码出来以供学习，本人小白一枚。

junxiaosong commented 6 years ago

AlphaZero算法里本身是没有evaluate环节的（之前的AlphaGo Zero版的算法里有这一环节），我们不断使用最新的模型生成训练数据，所以evaluate这一环节对整个训练过程或者说优化效果方面是没有任何影响的，完全可以删掉的。我这边定期和pure MCTS对比只是为了找一个相对稳定的基准，来观察下训练过程中模型是不是越来越强，仅此而已。