请教PPO问题 - Githubissues

boyu-ai / Hands-on-RL

https://hrl.boyuai.com/

Apache License 2.0

2.62k stars 558 forks source link

Open 394262597 opened 3 months ago

394262597 commented 3 months ago

我看PPO这里加载的agent是train on policy的，但是直接train的话并不会有经验池，但PPO中N步更新的时候不是应该有一个经验池吗，就是对应的off policy部分，这里是在哪体现出来的呢？

eddie1516 commented 1 month ago

off policy 经验池会存所有交互过程的经验 on policy 只会用N步经验来更新下一个epoch就清空了