junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.23k stars 962 forks source link

看完代码觉得这个Implemention有问题,欢迎指正 #104

Closed ylf11235 closed 3 years ago

ylf11235 commented 4 years ago

把作者的代码读了一遍,觉得有个地方有问题。 按照我的理解作者这里把每局的replay简单的所有局面赋予了相同的z值,我按一种分支走法走到底,如果这局白棋赢了,对于这一局的所有states都赋予白棋赢的标签。

然而任何一篇alphago论文都不是这么干的,包括alpha lee的文章, 一开始就是有把单次搜索(可能是几千几万盘end_game)做一个统计,才能得出一个当前局面的value或者action的监督信号。 我觉得这可能是这个项目训出来的ai不怎么强的原因。

具体训练数据的生成,标签统计应该如何做,可以参考这一篇文章: https://medium.com/applied-data-science/how-to-build-your-own-deepmind-muzero-in-python-part-2-3-f99dad7a7ad

zhc7 commented 3 years ago

image