junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.33k stars 970 forks source link

关于评估方法的疑问 #62

Open Joker2770 opened 6 years ago

Joker2770 commented 6 years ago

@junxiaosong 如果我没看错的话您的评估方式为用current_policy对抗pure_MCTS,如果胜率比最高胜率要高就上位覆盖best_policy。那么我可不可以将评估方式改为用current_policy对抗best_policy,如果current_policy胜率比best_policy胜率更高就让current_policy上位覆盖best_policy。

另外还有个小疑问:

——best_win_ratio是不是train.py训练程序被终止下次重启后初始化为0.0了,这样上次练好的模型会被稍次的model替换了吧。

junxiaosong commented 6 years ago

因为evaluate这块完全对训练过程没有影响,只是用来观察一下训练进度,所以你完全可以按照想要观察的方式来进行,比如让current_policy对抗best_policy。我这边和pure_MCTS对比是因为pure_MCTS是一个相对稳定的基准,能看出我们训练的policy的绝对水平大概在什么位置,而current_policy对抗best_policy的话即使胜率很高也只是相对的,可能两个都很弱。 另外best_win_ratio这个确实是会重新从0开始,所以训练好的有价值的模型可以自己重命名保存起来。

Joker2770 commented 6 years ago

感谢耐心解答