torch PPO 训练损失函数不下降，模型不收敛

Jacky-gsq commented 1 year ago

是这样，我自己创建了一个强化学习环境，最初用paddle版本的PPO，模型收敛很快，后来由于要和其他模型合并，改写成了torch版本的PPO，训练过程发现模型一直不收敛。我想问下是否和torch版本的梯度反向传播有关？

TomorrowIsAnOtherDay commented 1 year ago

?

TomorrowIsAnOtherDay commented 1 year ago

你可以参考下我们在benchmark文件夹里的torch- PPO

Jacky-gsq commented 1 year ago

我就是参考的benchmark中的torch-PPO，但感觉好像没有梯度回传，训练了很多轮，loss是下面这个情况，以及训练出的策略基本无效。

value_loss: 0.0013331060887139755, action_loss: -8.503875363885527e-06, entropy_loss: 0.0221320184529759 value_loss: 0.0006235391934751533, action_loss: -6.359632317298747e-06, entropy_loss: 0.022069220640696587 value_loss: 0.0004336850646723178, action_loss: -1.4277298373599478e-05, entropy_loss: 0.0220184815232642 value_loss: 0.0003959691832278622, action_loss: -5.958746589840302e-06, entropy_loss: 0.021996166568715125 value_loss: 0.0004071802983162343, action_loss: -7.648758480627293e-06, entropy_loss: 0.021966349135618658 value_loss: 0.0004122814281799947, action_loss: -7.497343813156476e-06, entropy_loss: 0.021904705034103245

TomorrowIsAnOtherDay commented 1 year ago

这个可能会和paddle/torch的默认超参数有关，建议优先考虑paddle版本的。torch版本我们可以确保是没问题的，在mujoco上的指标也验证过。

Jacky-gsq commented 1 year ago

好的，非常感谢

PaddlePaddle / PARL

torch PPO 训练损失函数不下降，模型不收敛 #987