starry-sky6688 / MARL-Algorithms

Implementations of IQL, QMIX, VDN, COMA, QTRAN, MAVEN, CommNet, DyMA-CL, and G2ANet on SMAC, the decentralised micromanagement scenario of StarCraft II
1.46k stars 283 forks source link

关于在别的环境应用qmix出现episodes rewards dropout的问题 #115

Closed ayton-zhang closed 5 months ago

ayton-zhang commented 5 months ago

作者您好,首先感谢您优质的开源项目,代码易读性很高,且迁移到其他的环境非常方便。

我将此算法迁移到了highway-env来完成我的项目,但是我始终遇到下面图片这个问题,就是算法先收敛到一个比较好的值,但是持续一会就下降并且震荡幅度很大。

我想问一下解决这个问题是提前停止训练(在已经有比较好的结果的时候)吗?我现在在使用默认的2000000步,您在SMAC中遇到过相关的问题吗?

下面两个图片是具体的情况,第二个是我用moving average处理过的。

plot_episode_rewards plot_ma_episode_rewards

starry-sky6688 commented 5 months ago

正常的,off-policy算法不稳的,而且不同环境下的最优超参肯定也不一样;如果掉下来之前的reward已经达到你的预期,停止训练即可,否则就需要再调调参了

Elapsedf commented 4 months ago

作者您好,首先感谢您优质的开源项目,代码易读性很高,且迁移到其他的环境非常方便。

我将此算法迁移到了highway-env来完成我的项目,但是我始终遇到下面图片这个问题,就是算法先收敛到一个比较好的值,但是持续一会就下降并且震荡幅度很大。

我想问一下解决这个问题是提前停止训练(在已经有比较好的结果的时候)吗?我现在在使用默认的2000000步,您在SMAC中遇到过相关的问题吗?

下面两个图片是具体的情况,第二个是我用moving average处理过的。

plot_episode_rewards plot_ma_episode_rewards

您好,我目前也在尝试将Qmix应用到highway-env,方便请教下您用的highway-env是官方版本还是哪个版本呢~可以一起交流学习下~