Chapter 1 补充材料的一个小问题

opendilab / PPOxFamily

PPO x Family DRL Tutorial Course（决策智能入门级公开课：8节课帮你盘清算法理论，理顺代码逻辑，玩转决策AI应用实践）

https://opendilab.github.io/PPOxFamily/

Apache License 2.0

2k stars 178 forks source link

Chapter 1 补充材料的一个小问题 #97

Open hkr04 opened 4 months ago

hkr04 commented 4 months ago

这里 $Q_\pi(s_t^n, at^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$，因为 $Q\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的，外面已经乘上了对于时间步 $0$ 而言的折扣因子，不应该重复做折扣。 UV 85(LGMVWUQ$TZ40BS_MI

puyuan1996 commented 1 month ago

感谢你的指出！你是对的，Q\^{\pi}(s{n,t}, a{n,t}) 定义中的上标确实应该是 l - t，而不是 l。因为 Q\^{\pi}(s{n,t}, a{n,t}) 表示的是从时间步 t 开始的累积回报，在第t步 reward的折扣应该是1。我们将会尽快修正相关内容，再次感谢你的细心反馈！