junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.25k stars 965 forks source link

请问实际对弈的时候,把np.ramdom.choice改成直接选最大概率会不会更好 #58

Closed gmftbyGMFTBY closed 6 years ago

gmftbyGMFTBY commented 6 years ago

如题

junxiaosong commented 6 years ago

现在实际对弈时,参数temp使用的是默认值10^-3,在这个参数下访问次数最多的分支基本对应概率1,其他分支概率几乎全0,所以用random choice也是会选择访问次数最多的那个分支。代码的注释中有提到这一点。

gmftbyGMFTBY commented 6 years ago

明白了,非常感谢