alpha zero是如何避免在不可行的位置落子的

junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

MIT License

3.34k stars 970 forks source link

Open ZhangXi20181002 opened 4 years ago

ZhangXi20181002 commented 4 years ago

想请教一下，alpha zero是如何避免在不可行的位置落子的，比如该位置已经被占了，因为mcts在select的时候，每一个动作的概率是跟policy的输出有关，而在一开始的时候，policy是不知道哪些位置可行，哪些不可行，这样是否会产生不可行的动作？

KohakuBlueleaf commented 4 years ago

在產生policy之後把所有不能動的位置的porb改成-INF或0 （有過softmax用0即可沒有的話用-INF)

ZhangXi20181002 commented 4 years ago

在產生policy之後把所有不能動的位置的porb改成-INF或0 （有過softmax用0即可沒有的話用-INF)

明白了，感谢您的解答！