Closed Lufffya closed 3 years ago
代码里用的是增量更新的方式,最开始Q=0,第一个leaf value进来,假设是V1,那么Q = Q + (V1 - Q) / 1 = V1; 第二个leaf value再进来,假设是V2,那么Q = Q + (V2 - Q) / 2 = V1 + (V2 - V1) / 2 = (V1 + V2) / 2; 以此类推n个leaf value之后,Q = (V1 + ...+ Vn) / n, 就是原文中的公式
那么 leaf_value - Q 怎么理解呢,leaf_value应该是当前玩家下当前局面的胜率评分,在第二轮计算其Q值的时候要减去原来的Q值? 还有前面的 * 1.0 是什么意思
哦哦,感谢大佬的解答,代码非常的精妙
关于子节点 Q值 更新的问题
参考了原论文
一直很不理解,为什么这里是这样写的