junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.23k stars 962 forks source link

alpha zero是如何避免在不可行的位置落子的 #113

Open ZhangXi20181002 opened 3 years ago

ZhangXi20181002 commented 3 years ago

想请教一下,alpha zero是如何避免在不可行的位置落子的,比如该位置已经被占了,因为mcts在select的时候,每一个动作的概率是跟policy的输出有关,而在一开始的时候,policy是不知道哪些位置可行,哪些不可行,这样是否会产生不可行的动作?

KohakuBlueleaf commented 3 years ago

在產生policy之後把所有不能動的位置的porb改成-INF或0 (有過softmax用0即可 沒有的話用-INF)

ZhangXi20181002 commented 3 years ago

在產生policy之後把所有不能動的位置的porb改成-INF或0 (有過softmax用0即可 沒有的話用-INF)

明白了,感谢您的解答!