Closed ayton-zhang closed 5 months ago
正常的,off-policy算法不稳的,而且不同环境下的最优超参肯定也不一样;如果掉下来之前的reward已经达到你的预期,停止训练即可,否则就需要再调调参了
作者您好,首先感谢您优质的开源项目,代码易读性很高,且迁移到其他的环境非常方便。
我将此算法迁移到了highway-env来完成我的项目,但是我始终遇到下面图片这个问题,就是算法先收敛到一个比较好的值,但是持续一会就下降并且震荡幅度很大。
我想问一下解决这个问题是提前停止训练(在已经有比较好的结果的时候)吗?我现在在使用默认的2000000步,您在SMAC中遇到过相关的问题吗?
下面两个图片是具体的情况,第二个是我用moving average处理过的。
您好,我目前也在尝试将Qmix应用到highway-env,方便请教下您用的highway-env是官方版本还是哪个版本呢~可以一起交流学习下~
作者您好,首先感谢您优质的开源项目,代码易读性很高,且迁移到其他的环境非常方便。
我将此算法迁移到了highway-env来完成我的项目,但是我始终遇到下面图片这个问题,就是算法先收敛到一个比较好的值,但是持续一会就下降并且震荡幅度很大。
我想问一下解决这个问题是提前停止训练(在已经有比较好的结果的时候)吗?我现在在使用默认的2000000步,您在SMAC中遇到过相关的问题吗?
下面两个图片是具体的情况,第二个是我用moving average处理过的。