junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.33k stars 970 forks source link

关于KL散度控制学习率的问题 #49

Open rommeldhy opened 6 years ago

rommeldhy commented 6 years ago

您好,注意到代码中有通过比较新旧两个神经网络输出的KL散度来控制学习率的方法,实验过程中学习率先快速增加然后逐渐减少,说明这个方法确实有用。想问一下这种方法有相关的文献资料的介绍吗?还是您凭经验创造出来的呢?

junxiaosong commented 6 years ago

这种方式是从PPO算法(Proximal Policy Optimization Algorithm)论文和一些相关实现中借鉴来的

rommeldhy commented 6 years ago

@junxiaosong 原来如此,非常感谢!

hijkzzz commented 5 years ago

都说为啥和TRPO的思想有点像。。。

zyfo2 commented 4 years ago

能问下里面的kl的阈值和学习率调整参数的值是凭经验吗?还是有一定计算方法?谢谢