junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.27k stars 964 forks source link

关于entropy #38

Open TZWwww opened 6 years ago

TZWwww commented 6 years ago

楼主你好,您在model里面的这个entropy似乎计算错了,应该是log吧,您用的tf.exp

junxiaosong commented 6 years ago

你说的应该是下面这一句吧,这边用exp是因为self.action_fc本身是log之后的probability self.entropy = tf.negative(tf.reduce_mean(tf.reduce_sum(tf.exp(self.action_fc) * self.action_fc, 1)))

TZWwww commented 6 years ago

嗯嗯,感谢,我明白了。还有个问题是,您没有使用多线程,是因为多线程加速不大么?如果使用多线程,那应该是每个线程各自搜索自己的树还是多个线程共同搜索一棵树呢?

junxiaosong commented 6 years ago

并行化应该是能够加速的,在issue #13 里有同学提到 “用了一个进程负责 self-play 和 training的部分, 另外4个进程只负责self-play的部分”,供参考;另外要实现MCTS并行加速的话可能需要用到virtual loss的trick,论文里有描述;另外issue #35 里的同学在尝试并行化,没准你们可以交流