Open rommeldhy opened 6 years ago
您好,注意到代码中有通过比较新旧两个神经网络输出的KL散度来控制学习率的方法,实验过程中学习率先快速增加然后逐渐减少,说明这个方法确实有用。想问一下这种方法有相关的文献资料的介绍吗?还是您凭经验创造出来的呢?
这种方式是从PPO算法(Proximal Policy Optimization Algorithm)论文和一些相关实现中借鉴来的
@junxiaosong 原来如此,非常感谢!
都说为啥和TRPO的思想有点像。。。
能问下里面的kl的阈值和学习率调整参数的值是凭经验吗?还是有一定计算方法?谢谢
您好,注意到代码中有通过比较新旧两个神经网络输出的KL散度来控制学习率的方法,实验过程中学习率先快速增加然后逐渐减少,说明这个方法确实有用。想问一下这种方法有相关的文献资料的介绍吗?还是您凭经验创造出来的呢?