PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning
https://parl.readthedocs.io/
Apache License 2.0
3.22k stars 816 forks source link

torch PPO 训练损失函数不下降,模型不收敛 #987

Open Jacky-gsq opened 1 year ago

Jacky-gsq commented 1 year ago

是这样,我自己创建了一个强化学习环境,最初用paddle版本的PPO,模型收敛很快,后来由于要和其他模型合并,改写成了torch版本的PPO,训练过程发现模型一直不收敛。我想问下是否和torch版本的梯度反向传播有关?

TomorrowIsAnOtherDay commented 1 year ago

?

TomorrowIsAnOtherDay commented 1 year ago

你可以参考下我们在benchmark文件夹里的torch- PPO

Jacky-gsq commented 1 year ago

我就是参考的benchmark中的torch-PPO,但感觉好像没有梯度回传,训练了很多轮,loss是下面这个情况,以及训练出的策略基本无效。

value_loss: 0.0013331060887139755, action_loss: -8.503875363885527e-06, entropy_loss: 0.0221320184529759 value_loss: 0.0006235391934751533, action_loss: -6.359632317298747e-06, entropy_loss: 0.022069220640696587 value_loss: 0.0004336850646723178, action_loss: -1.4277298373599478e-05, entropy_loss: 0.0220184815232642 value_loss: 0.0003959691832278622, action_loss: -5.958746589840302e-06, entropy_loss: 0.021996166568715125 value_loss: 0.0004071802983162343, action_loss: -7.648758480627293e-06, entropy_loss: 0.021966349135618658 value_loss: 0.0004122814281799947, action_loss: -7.497343813156476e-06, entropy_loss: 0.021904705034103245

TomorrowIsAnOtherDay commented 1 year ago

这个可能会和paddle/torch的默认超参数有关,建议优先考虑paddle版本的。torch版本我们可以确保是没问题的,在mujoco上的指标也验证过。

Jacky-gsq commented 1 year ago

好的,非常感谢