看完代码觉得这个Implemention有问题，欢迎指正

把作者的代码读了一遍，觉得有个地方有问题。按照我的理解作者这里把每局的replay简单的所有局面赋予了相同的z值，我按一种分支走法走到底，如果这局白棋赢了，对于这一局的所有states都赋予白棋赢的标签。

然而任何一篇alphago论文都不是这么干的，包括alpha lee的文章，一开始就是有把单次搜索（可能是几千几万盘end_game）做一个统计，才能得出一个当前局面的value或者action的监督信号。我觉得这可能是这个项目训出来的ai不怎么强的原因。