Closed sungaok closed 1 year ago
建议看 EasyRL 的解释
对照《强化学习》邹伟等人著,8.3 蒙特卡罗策略梯度 这个方法解释理解差距有点大, 摘录部分内容:现在介绍第一个策略梯度学习算法。由策略梯度定理▽θJ(θ)=Es~u,a~π[▽θlogπθ(a|s,θ)Qπ(s,a)],可知,我们需要通过采样,以使样本梯度的期望与目标函数的实际梯度相等。用采样数据at代替a,st代替s,又因为:Es~u,a~π[Gt|st,at]=Qπ(st,at)则有:▽θJ(θ)=Es~u,a~π[▽θlogπθ(at|st,θ)Qπ(st,at)]=Es~u,a~π[Gt▽θlogπθ(at|st,θ)]结合策略参数的随机梯度上升公式θt+1=θt+α▽J(θt),得到REINFORCE方法。如下:θt+1=θt+α Gt▽θlogπθ(at|st,θ)
对照《强化学习》邹伟等人著,8.3 蒙特卡罗策略梯度 这个方法解释理解差距有点大, 摘录部分内容:现在介绍第一个策略梯度学习算法。由策略梯度定理▽θJ(θ)=Es~u,a~π[▽θlogπθ(a|s,θ)Qπ(s,a)],可知,我们需要通过采样,以使样本梯度的期望与目标函数的实际梯度相等。用采样数据at代替a,st代替s,又因为:Es~u,a~π[Gt|st,at]=Qπ(st,at)则有:▽θJ(θ)=Es~u,a~π[▽θlogπθ(at|st,θ)Qπ(st,at)]=Es~u,a~π[Gt▽θlogπθ(at|st,θ)]结合策略参数的随机梯度上升公式θt+1=θt+α▽J(θt),得到REINFORCE方法。如下:θt+1=θt+α Gt▽θlogπθ(at|st,θ)