junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.25k stars 965 forks source link

关于c_puct的问题 #46

Open rommeldhy opened 6 years ago

rommeldhy commented 6 years ago

楼主你好,非常感谢你的分享! 我在tensorflow上试着跑了一下您的代码,可是在8*8的尺寸下不知为何效果不理想。于是把合法落子点限制在已有落子点的附近,但是效果还是不甚理想。想问一下如果减少合法动作数量的话,这个c_puct是否需要相应地增加或者减小呢?

junxiaosong commented 6 years ago

这个c_puct是用来控制MCTS探索与利用的平衡的,我不是很确定合法动作数量减少之后是否有必要调整它,因为根据AlphaZero论文的话,在应对3种合法动作数量差异很大的棋类时也没有调整这个参数。但是如果要调整的话,我的建议是可以适当减小试试,因为目前的取值5对c_puct这个参数而言是相对比较大的一个设置