Open zzjng opened 1 year ago
我是直接用网站上下载的代码跑的,没有改任何参数,是我电脑的问题还是我需要进一步地调参啊,遇到过好几次这种情况,都没解决
这种波动可太常见了,Sutton老爷子曰:“如果一种方法同时满足函数逼近、自举法和off-policy训练,就一定会有不稳定和发散的危险”,所以DQN本身就是不收敛的。大家都解决不了,所以就都不讨论了,论文里那种很漂亮的曲线基本都是取平均后的结果。 改良的话可以试试降低一点学习率,我之前写时是lr=0.001既然可以跑,就没再动它...XD 或者把经验回放池调大一些,使用优先经验回放,努努力用更高级的DQN之类的。 贴一个OpenAI关于Deep Q-networks的建议:https://spinningup.openai.com/en/latest/spinningup/rl_intro3.html
大佬调程序的时候有出现过这种问题吗?接下来应该怎么调啊