Closed gmftbyGMFTBY closed 6 years ago
如题
现在实际对弈时,参数temp使用的是默认值10^-3,在这个参数下访问次数最多的分支基本对应概率1,其他分支概率几乎全0,所以用random choice也是会选择访问次数最多的那个分支。代码的注释中有提到这一点。
明白了,非常感谢
如题