Open 394262597 opened 3 months ago
我看PPO这里加载的agent是train on policy的,但是直接train的话并不会有经验池,但PPO中N步更新的时候不是应该有一个经验池吗,就是对应的off policy部分,这里是在哪体现出来的呢?
off policy 经验池会存所有交互过程的经验 on policy 只会用N步经验来更新 下一个epoch就清空了
我看PPO这里加载的agent是train on policy的,但是直接train的话并不会有经验池,但PPO中N步更新的时候不是应该有一个经验池吗,就是对应的off policy部分,这里是在哪体现出来的呢?