ppo训练问题 - Githubissues

Lizhi-sjtu / DRL-code-pytorch

Concise pytorch implements of DRL algorithms, including REINFORCE, A2C, DQN, PPO(discrete and continuous), DDPG, TD3, SAC.

MIT License

1.09k stars 179 forks source link

Open binbinyouli12 opened 4 months ago

binbinyouli12 commented 4 months ago

你好，感谢你提供得代码，对我来说有很大帮助，但是我在用ppo得时候出现了点问题，我是一个初学者，我在训练得时候发现连续得ppo算法接入到我自定义得环境后他得每个episode得奖励都一模一样，网络给出得动作是不同但相差非常小，不知道为什么哪里出了问题

iimxinyi commented 1 month ago

请问您解决了吗，我也遇到了相同的问题

binbinyouli12 commented 1 month ago

请问您解决了吗，我也遇到了相同的问题

我换了sac的算法，但是我再改的时候发现我自定义环境有些地方有错误，你可以看看你环境有没有什么问题

iimxinyi commented 1 month ago

请问您解决了吗，我也遇到了相同的问题

我换了sac的算法，但是我再改的时候发现我自定义环境有些地方有错误，你可以看看你环境有没有什么问题

我根据issue里大家提的意见对PPO代码进行了一些修改，修改后的代码已上传至github。我测试下来这个代码可以收敛，如果您有需要可以参考，谢谢。 https://github.com/iimxinyi/Lightweight-Reinforcement-Learning/tree/main/SADRL/PPO