datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.04k stars 1.81k forks source link

4.3 REINFORCE:蒙特卡洛策略梯度 #135

Closed sungaok closed 1 year ago

sungaok commented 1 year ago

对照《强化学习》邹伟等人著,8.3 蒙特卡罗策略梯度 这个方法解释理解差距有点大, 摘录部分内容:现在介绍第一个策略梯度学习算法。由策略梯度定理▽θJ(θ)=Es~u,a~π[▽θlogπθ(a|s,θ)Qπ(s,a)],可知,我们需要通过采样,以使样本梯度的期望与目标函数的实际梯度相等。用采样数据at代替a,st代替s,又因为:Es~u,a~π[Gt|st,at]=Qπ(st,at)则有:▽θJ(θ)=Es~u,a~π[▽θlogπθ(at|st,θ)Qπ(st,at)]=Es~u,a~π[Gt▽θlogπθ(at|st,θ)]结合策略参数的随机梯度上升公式θt+1=θt+α▽J(θt),得到REINFORCE方法。如下:θt+1=θt+α Gt▽θlogπθ(at|st,θ)

qiwang067 commented 1 year ago

建议看 EasyRL 的解释

对照《强化学习》邹伟等人著,8.3 蒙特卡罗策略梯度 这个方法解释理解差距有点大, 摘录部分内容:现在介绍第一个策略梯度学习算法。由策略梯度定理▽θJ(θ)=Es~u,a~π[▽θlogπθ(a|s,θ)Qπ(s,a)],可知,我们需要通过采样,以使样本梯度的期望与目标函数的实际梯度相等。用采样数据at代替a,st代替s,又因为:Es~u,a~π[Gt|st,at]=Qπ(st,at)则有:▽θJ(θ)=Es~u,a~π[▽θlogπθ(at|st,θ)Qπ(st,at)]=Es~u,a~π[Gt▽θlogπθ(at|st,θ)]结合策略参数的随机梯度上升公式θt+1=θt+α▽J(θt),得到REINFORCE方法。如下:θt+1=θt+α Gt▽θlogπθ(at|st,θ)