论文里通过400次对弈评估网络，难道不是每次下棋走法都一样吗？

initial-h commented 6 years ago

论文里说评估网络的时候要和之前最好的网络对弈400把，然后超过55的胜率就换成新的网络。但是文章又说tau取近似0，那么每次网络见到同样的局面应该都走的相同的地方，那下400把和下2把没有区别啊。还是我哪里理解错了？

junxiaosong commented 6 years ago

你说的应该是AlphaGo Zero论文，在AlphaGo Zero论文中有提到在评估叶子节点对应的局面时会从旋转/翻转等价的局面中随机选择一个进行值评估，这可能是随机性的一个来源。

initial-h commented 6 years ago

很有可能，感谢答复。还有另一件事情需要征求作者的同意。之前一直在试图做大棋盘，修改了网络结构、特征提取、并行等地方，线上线下也和很多人有交流。最近有个经常交流的小伙伴想让我去线上讲一下实战经验以及代码，但是我的代码是基于作者的代码写的，而且奈于算力，框架虽然基本完成但是效果还没有显现。所以想征得作者的同意，或者能不能作者您亲自跟我们讲一下实战经验。希望能加一下作者微信之类的进一步交流，我的邮箱zhanghongming@pku.edu.cn，非常感谢，打扰了。

junxiaosong / AlphaZero_Gomoku

论文里通过400次对弈评估网络，难道不是每次下棋走法都一样吗？ #72