Open hkr04 opened 4 months ago
这里 $Q_\pi(s_t^n, at^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$,因为 $Q\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的,外面已经乘上了对于时间步 $0$ 而言的折扣因子,不应该重复做折扣。
感谢你的指出!你是对的,Q\^{\pi}(s{n,t}, a{n,t}) 定义中的上标确实应该是 l - t,而不是 l。因为 Q\^{\pi}(s{n,t}, a{n,t}) 表示的是从时间步 t 开始的累积回报, 在第t步 reward的折扣应该是1。我们将会尽快修正相关内容,再次感谢你的细心反馈!
这里 $Q_\pi(s_t^n, at^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$,因为 $Q\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的,外面已经乘上了对于时间步 $0$ 而言的折扣因子,不应该重复做折扣。