opendilab / PPOxFamily

PPO x Family DRL Tutorial Course(决策智能入门级公开课:8节课帮你盘清算法理论,理顺代码逻辑,玩转决策AI应用实践 )
https://opendilab.github.io/PPOxFamily/
Apache License 2.0
1.96k stars 176 forks source link

Chapter 1 补充材料的一个小问题 #97

Open hkr04 opened 3 months ago

hkr04 commented 3 months ago

这里 $Q_\pi(s_t^n, at^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$,因为 $Q\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的,外面已经乘上了对于时间步 $0$ 而言的折扣因子,不应该重复做折扣。 UV 85(LGMVWUQ$TZ40BS_MI

puyuan1996 commented 1 week ago

感谢你的指出!你是对的,Q\^{\pi}(s{n,t}, a{n,t}) 定义中的上标确实应该是 l - t,而不是 l。因为 Q\^{\pi}(s{n,t}, a{n,t}) 表示的是从时间步 t 开始的累积回报, 在第t步 reward的折扣应该是1。我们将会尽快修正相关内容,再次感谢你的细心反馈!