junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.23k stars 962 forks source link

关于策略网络和价值网络 #91

Open zhang-qiang-github opened 5 years ago

zhang-qiang-github commented 5 years ago

在现在的网络中,输出一个概率p,和价值v。假设现在可以走的地方有10个选择,那么p是一个110的数,表示下一步在这10个位置下的概率,v是一个11的标量,表示赢的可能性。

我不是很理解这个v这个值的意思。如果v是对应着下一步的概率,那么它应该也是110的才对吧?这样才能表示下一步,下到10个位置输赢的可能性。现在只有11的东西,那么它表示啥意思?表示还没有下一步的时候的输赢?