关于KL散度控制学习率的问题

junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

MIT License

3.33k stars 970 forks source link

Open rommeldhy opened 6 years ago

rommeldhy commented 6 years ago

您好，注意到代码中有通过比较新旧两个神经网络输出的KL散度来控制学习率的方法，实验过程中学习率先快速增加然后逐渐减少，说明这个方法确实有用。想问一下这种方法有相关的文献资料的介绍吗？还是您凭经验创造出来的呢？

junxiaosong commented 6 years ago

这种方式是从PPO算法（Proximal Policy Optimization Algorithm）论文和一些相关实现中借鉴来的

rommeldhy commented 6 years ago

@junxiaosong 原来如此，非常感谢！

hijkzzz commented 5 years ago

都说为啥和TRPO的思想有点像。。。

zyfo2 commented 4 years ago

能问下里面的kl的阈值和学习率调整参数的值是凭经验吗？还是有一定计算方法？谢谢