boyu-ai / Hands-on-RL

https://hrl.boyuai.com/
Apache License 2.0
2.62k stars 558 forks source link

请教PPO问题 #87

Open 394262597 opened 3 months ago

394262597 commented 3 months ago

我看PPO这里加载的agent是train on policy的,但是直接train的话并不会有经验池,但PPO中N步更新的时候不是应该有一个经验池吗,就是对应的off policy部分,这里是在哪体现出来的呢?

eddie1516 commented 1 month ago

off policy 经验池会存所有交互过程的经验 on policy 只会用N步经验来更新 下一个epoch就清空了