Closed ylf11235 closed 4 years ago
把作者的代码读了一遍,觉得有个地方有问题。 按照我的理解作者这里把每局的replay简单的所有局面赋予了相同的z值,我按一种分支走法走到底,如果这局白棋赢了,对于这一局的所有states都赋予白棋赢的标签。
然而任何一篇alphago论文都不是这么干的,包括alpha lee的文章, 一开始就是有把单次搜索(可能是几千几万盘end_game)做一个统计,才能得出一个当前局面的value或者action的监督信号。 我觉得这可能是这个项目训出来的ai不怎么强的原因。
具体训练数据的生成,标签统计应该如何做,可以参考这一篇文章: https://medium.com/applied-data-science/how-to-build-your-own-deepmind-muzero-in-python-part-2-3-f99dad7a7ad
把作者的代码读了一遍,觉得有个地方有问题。 按照我的理解作者这里把每局的replay简单的所有局面赋予了相同的z值,我按一种分支走法走到底,如果这局白棋赢了,对于这一局的所有states都赋予白棋赢的标签。
然而任何一篇alphago论文都不是这么干的,包括alpha lee的文章, 一开始就是有把单次搜索(可能是几千几万盘end_game)做一个统计,才能得出一个当前局面的value或者action的监督信号。 我觉得这可能是这个项目训出来的ai不怎么强的原因。
具体训练数据的生成,标签统计应该如何做,可以参考这一篇文章: https://medium.com/applied-data-science/how-to-build-your-own-deepmind-muzero-in-python-part-2-3-f99dad7a7ad