datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.04k stars 1.81k forks source link

《9.3 优势演员-评论员算法》的公式(9.3)错误 #155

Closed Sjtu-hyg closed 3 months ago

Sjtu-hyg commented 3 months ago

Q和V的关系中,是否V前缺少了折扣系数γ

Sjtu-hyg commented 3 months ago

另外,书中关于(st, at, rt+1, st+1, at+1) 中rt+1的下标是否没有统一,例如在《3.4.1Sarsa:同策略时序差分控制》中采用rt+1,而在《9.3优势演员-评论员算法》中如公式(9.3)采用(st, at, rt, st+1, at+1) 的顺序

qiwang067 commented 3 months ago

Q和V的关系中,是否V前缺少了折扣系数γ

这边为了简化,没有写折扣因子

qiwang067 commented 3 months ago

另外,书中关于(st, at, rt+1, st+1, at+1) 中rt+1的下标是否没有统一,例如在《3.4.1Sarsa:同策略时序差分控制》中采用rt+1,而在《9.3优势演员-评论员算法》中如公式(9.3)采用(st, at, rt, st+1, at+1) 的顺序

@Sjtu-hyg 感谢您的反馈 👍 ,这块确实没有统一,准备蘑菇书下一版统一下