Open tfliu opened 5 years ago
谢回答。explained_var_old = (1 - np.var(np.array(winner_batch) - old_v.flatten()) / np.var(np.array(winner_batch))),(分布a-分布b) 的方差/分布a的方差,请问这个公式出自哪里。。 和6x6对战试了下,基本没问题了。8x8有明显的边缘失策,如同其他回复下说的一样。 个人觉得很可能是 cnn做卷积的时候对边缘的zero-padding导致的,我猜想如果将边缘位置作为输入cnn的显式特征,例如单独一张边缘特征图输入这样。。会不会好一些。 当然,增大playout次数应该是最直接的方法
首先感谢分享程序。 请问在6x6 四子棋的训练过程中,有没有调节learning_rate或者其他参数? 程序里的c_puct=5 , 温度t=1,学习率 0.002,batch_size 512 , deque最大长度10000, kl-targ=0.02 ,epochs=5 我使用你程序里的预设参数 tensorflow训练6x6 四子棋 ,loss下降到2左右就无法下降了,调节学习率也没成功。。。求帮助解答,谢谢
另外,不明白explain_var_old这个参考数值的意义。