关于在别的环境应用qmix出现episodes rewards dropout的问题

ayton-zhang commented 5 months ago

作者您好，首先感谢您优质的开源项目，代码易读性很高，且迁移到其他的环境非常方便。

我将此算法迁移到了highway-env来完成我的项目，但是我始终遇到下面图片这个问题，就是算法先收敛到一个比较好的值，但是持续一会就下降并且震荡幅度很大。

我想问一下解决这个问题是提前停止训练（在已经有比较好的结果的时候）吗？我现在在使用默认的2000000步，您在SMAC中遇到过相关的问题吗？

下面两个图片是具体的情况，第二个是我用moving average处理过的。

plot_episode_rewards plot_ma_episode_rewards

starry-sky6688 commented 5 months ago

正常的，off-policy算法不稳的，而且不同环境下的最优超参肯定也不一样；如果掉下来之前的reward已经达到你的预期，停止训练即可，否则就需要再调调参了

Elapsedf commented 4 months ago

作者您好，首先感谢您优质的开源项目，代码易读性很高，且迁移到其他的环境非常方便。

我将此算法迁移到了highway-env来完成我的项目，但是我始终遇到下面图片这个问题，就是算法先收敛到一个比较好的值，但是持续一会就下降并且震荡幅度很大。

我想问一下解决这个问题是提前停止训练（在已经有比较好的结果的时候）吗？我现在在使用默认的2000000步，您在SMAC中遇到过相关的问题吗？

下面两个图片是具体的情况，第二个是我用moving average处理过的。

您好，我目前也在尝试将Qmix应用到highway-env，方便请教下您用的highway-env是官方版本还是哪个版本呢~可以一起交流学习下~

starry-sky6688 / MARL-Algorithms

关于在别的环境应用qmix出现episodes rewards dropout的问题 #115