Lizhi-sjtu / DRL-code-pytorch

Concise pytorch implements of DRL algorithms, including REINFORCE, A2C, DQN, PPO(discrete and continuous), DDPG, TD3, SAC.
MIT License
1.09k stars 179 forks source link

ppo训练问题 #15

Open binbinyouli12 opened 4 months ago

binbinyouli12 commented 4 months ago

你好,感谢你提供得代码,对我来说有很大帮助,但是我在用ppo得时候出现了点问题,我是一个初学者,我在训练得时候发现连续得ppo算法接入到我自定义得环境后他得每个episode得奖励都一模一样,网络给出得动作是不同但相差非常小,不知道为什么哪里出了问题

iimxinyi commented 1 month ago

请问您解决了吗,我也遇到了相同的问题

binbinyouli12 commented 1 month ago

请问您解决了吗,我也遇到了相同的问题

我换了sac的算法,但是我再改的时候发现我自定义环境有些地方有错误,你可以看看你环境有没有什么问题

iimxinyi commented 1 month ago

请问您解决了吗,我也遇到了相同的问题

我换了sac的算法,但是我再改的时候发现我自定义环境有些地方有错误,你可以看看你环境有没有什么问题

我根据issue里大家提的意见对PPO代码进行了一些修改,修改后的代码已上传至github。我测试下来这个代码可以收敛,如果您有需要可以参考,谢谢。 https://github.com/iimxinyi/Lightweight-Reinforcement-Learning/tree/main/SADRL/PPO