Closed initial-h closed 5 years ago
你说的应该是AlphaGo Zero论文,在AlphaGo Zero论文中有提到在评估叶子节点对应的局面时会从旋转/翻转等价的局面中随机选择一个进行值评估,这可能是随机性的一个来源。
很有可能,感谢答复。 还有另一件事情需要征求作者的同意。之前一直在试图做大棋盘,修改了网络结构、特征提取、并行等地方,线上线下也和很多人有交流。最近有个经常交流的小伙伴想让我去线上讲一下实战经验以及代码,但是我的代码是基于作者的代码写的,而且奈于算力,框架虽然基本完成但是效果还没有显现。所以想征得作者的同意,或者能不能作者您亲自跟我们讲一下实战经验。希望能加一下作者微信之类的进一步交流,我的邮箱zhanghongming@pku.edu.cn,非常感谢,打扰了。
论文里说评估网络的时候要和之前最好的网络对弈400把,然后超过55的胜率就换成新的网络。但是文章又说tau取近似0,那么每次网络见到同样的局面应该都走的相同的地方,那下400把和下2把没有区别啊。还是我哪里理解错了?