关于评估方法的疑问

junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

MIT License

3.33k stars 970 forks source link

关于评估方法的疑问 #62

Open Joker2770 opened 6 years ago

Joker2770 commented 6 years ago

@junxiaosong 如果我没看错的话您的评估方式为用current_policy对抗pure_MCTS，如果胜率比最高胜率要高就上位覆盖best_policy。那么我可不可以将评估方式改为用current_policy对抗best_policy，如果current_policy胜率比best_policy胜率更高就让current_policy上位覆盖best_policy。

另外还有个小疑问：

——best_win_ratio是不是train.py训练程序被终止下次重启后初始化为0.0了，这样上次练好的模型会被稍次的model替换了吧。

junxiaosong commented 6 years ago

因为evaluate这块完全对训练过程没有影响，只是用来观察一下训练进度，所以你完全可以按照想要观察的方式来进行，比如让current_policy对抗best_policy。我这边和pure_MCTS对比是因为pure_MCTS是一个相对稳定的基准，能看出我们训练的policy的绝对水平大概在什么位置，而current_policy对抗best_policy的话即使胜率很高也只是相对的，可能两个都很弱。另外best_win_ratio这个确实是会重新从0开始，所以训练好的有价值的模型可以自己重命名保存起来。

Joker2770 commented 6 years ago

感谢耐心解答