Open Joker2770 opened 6 years ago
因为evaluate这块完全对训练过程没有影响,只是用来观察一下训练进度,所以你完全可以按照想要观察的方式来进行,比如让current_policy对抗best_policy。我这边和pure_MCTS对比是因为pure_MCTS是一个相对稳定的基准,能看出我们训练的policy的绝对水平大概在什么位置,而current_policy对抗best_policy的话即使胜率很高也只是相对的,可能两个都很弱。 另外best_win_ratio这个确实是会重新从0开始,所以训练好的有价值的模型可以自己重命名保存起来。
感谢耐心解答
@junxiaosong 如果我没看错的话您的评估方式为用current_policy对抗pure_MCTS,如果胜率比最高胜率要高就上位覆盖best_policy。那么我可不可以将评估方式改为用current_policy对抗best_policy,如果current_policy胜率比best_policy胜率更高就让current_policy上位覆盖best_policy。
另外还有个小疑问:
——best_win_ratio是不是train.py训练程序被终止下次重启后初始化为0.0了,这样上次练好的模型会被稍次的model替换了吧。