junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.29k stars 964 forks source link

关于MCTS中计算Q值的方法的区别 #44

Open JeffSoong opened 6 years ago

JeffSoong commented 6 years ago

我看一些文章中Q是取的平均值,但是我看代码中Q是滑动平均值,这两个值应该是不一样的,所以想问一下为什么代码中用滑动平均?

junxiaosong commented 6 years ago

代码里其实也是算的平均值,只是用了增量计算的形式,如果你展开的话,会发现计算公式如下: Q = ((n-1)*Q_old + leaf_value)/n

JeffSoong commented 6 years ago

多谢,这个看的时候大意了,只关注Q值了,没有看到n的加一跟Q是在一块算的