yzhq97 / AlphaGomokuZero

An illustration program which visualizes the MCTS mechanism inside AlphaZero in order to provide a better understanding of how an AI makes decisions. 一个通过可视化AlphaZero中的蒙特卡洛树搜索来解释AI决策方式的程序。
MIT License
16 stars 6 forks source link

训练中有哪些主要注意的地方吗,15000局就能达到如此效果很不简单 #1

Open initial-h opened 5 years ago

initial-h commented 5 years ago

RT 之前自己也在尝试大棋盘,训练了不止15000,但是并没有达到如此效果。作者在训练过程中有什么技巧吗?

yzhq97 commented 5 years ago

模型的大小要控制,感觉模型稍微大一点就会训不动。我一般每训练两千盘,就会和这个模型下一下,看一下效果,如果不行就直接停了。另外发现residual connection很有用。

initial-h commented 5 years ago

我已经训练出了一个比较强力的AI,也是在11x11上训练的,感谢解答,有机会多多交流。https://github.com/initial-h/AlphaZero_Gomoku_MPI