opendilab / DI-engine

OpenDILab Decision AI Engine. The Most Comprehensive Reinforcement Learning Framework B.P.
https://di-engine-docs.readthedocs.io
Apache License 2.0
3k stars 367 forks source link

H-PPO算法运行失败 #760

Closed Root970103 closed 9 months ago

Root970103 commented 9 months ago

按照README 中介绍,执行ding -m serial_onpolicy -c dizoo/gym_hybrid/config/gym_hybrid_hppo_config.py -s 0 报错 image

软件版本: gym:0.25.1 gym-hybrid:0.02

请问可能是什么原因呢?

PaParaZz1 commented 9 months ago

我们已经在 main 分支最新的 commit 中修复了这个问题,可以尝试下在你的环境中是否解决。

Root970103 commented 9 months ago

我们已经在 main 分支最新的 commit 中修复了这个问题,可以尝试下在你的环境中是否解决。

OK. 我这边也可以成功运行啦! 感谢~

Root970103 commented 9 months ago

我这边尝试运行一段时间后报错。

能帮忙看下是什么原因吗? @PaParaZz1 image

PaParaZz1 commented 9 months ago

我这边尝试运行一段时间后报错。

能帮忙看下是什么原因吗? @PaParaZz1 image

可能是 H-PPO 输出连续动作部分的 musigma 优化出了问题变成了nan,这种情况不时会发生,可以考虑控制更小的学习率 or 添加更强的 grad norm

Root970103 commented 9 months ago

我这边尝试运行一段时间后报错。 能帮忙看下是什么原因吗? @PaParaZz1 image

可能是 H-PPO 输出连续动作部分的 musigma 优化出了问题变成了nan,这种情况不时会发生,可以考虑控制更小的学习率 or 添加更强的 grad norm

目前这个算法运行状态一直是这种随机的吗?我看到文档 基准算法性能 中有对应的benchmark,请问是否有稳定的参数配置可以参考呢?

PaParaZz1 commented 9 months ago

我这边尝试运行一段时间后报错。 能帮忙看下是什么原因吗? @PaParaZz1 image

可能是 H-PPO 输出连续动作部分的 musigma 优化出了问题变成了nan,这种情况不时会发生,可以考虑控制更小的学习率 or 添加更强的 grad norm

目前这个算法运行状态一直是这种随机的吗?我看到文档 基准算法性能 中有对应的benchmark,请问是否有稳定的参数配置可以参考呢?

不是随机的,应该是有一定概率某些随机种子下会出现问题,你可以尝试运行多个种子看看。我们这边这两天也会用这个 config 跑一个3个种子的实验确认看看

puyuan1996 commented 9 months ago

我这边尝试运行一段时间后报错。 能帮忙看下是什么原因吗? @PaParaZz1 image

可能是 H-PPO 输出连续动作部分的 musigma 优化出了问题变成了nan,这种情况不时会发生,可以考虑控制更小的学习率 or 添加更强的 grad norm

目前这个算法运行状态一直是这种随机的吗?我看到文档 基准算法性能 中有对应的benchmark,请问是否有稳定的参数配置可以参考呢?