junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.33k stars 970 forks source link

论文里通过400次对弈评估网络,难道不是每次下棋走法都一样吗? #72

Closed initial-h closed 5 years ago

initial-h commented 6 years ago

论文里说评估网络的时候要和之前最好的网络对弈400把,然后超过55的胜率就换成新的网络。但是文章又说tau取近似0,那么每次网络见到同样的局面应该都走的相同的地方,那下400把和下2把没有区别啊。还是我哪里理解错了?

junxiaosong commented 6 years ago

你说的应该是AlphaGo Zero论文,在AlphaGo Zero论文中有提到在评估叶子节点对应的局面时会从旋转/翻转等价的局面中随机选择一个进行值评估,这可能是随机性的一个来源。

initial-h commented 6 years ago

很有可能,感谢答复。 还有另一件事情需要征求作者的同意。之前一直在试图做大棋盘,修改了网络结构、特征提取、并行等地方,线上线下也和很多人有交流。最近有个经常交流的小伙伴想让我去线上讲一下实战经验以及代码,但是我的代码是基于作者的代码写的,而且奈于算力,框架虽然基本完成但是效果还没有显现。所以想征得作者的同意,或者能不能作者您亲自跟我们讲一下实战经验。希望能加一下作者微信之类的进一步交流,我的邮箱zhanghongming@pku.edu.cn,非常感谢,打扰了。