4.3 REINFORCE：蒙特卡洛策略梯度

datawhalechina / easy-rl

强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/

Other

9.04k stars 1.81k forks source link

对照《强化学习》邹伟等人著，8.3　蒙特卡罗策略梯度这个方法解释理解差距有点大，摘录部分内容：现在介绍第一个策略梯度学习算法。由策略梯度定理▽θJ（θ）=Es～u，a～π[▽θlogπθ（a|s，θ）Qπ（s，a）]，可知，我们需要通过采样，以使样本梯度的期望与目标函数的实际梯度相等。用采样数据at代替a，st代替s，又因为：Es～u，a～π[Gt|st，at]=Qπ（st，at）则有：▽θJ（θ）=Es～u，a～π[▽θlogπθ（at|st，θ）Qπ（st，at）]=Es～u，a～π[Gt▽θlogπθ（at|st，θ）]结合策略参数的随机梯度上升公式θt+1=θt+α▽J（θt），得到REINFORCE方法。如下：θt+1=θt+α Gt▽θlogπθ（at|st，θ）

建议看 EasyRL 的解释

对照《强化学习》邹伟等人著，8.3　蒙特卡罗策略梯度这个方法解释理解差距有点大，摘录部分内容：现在介绍第一个策略梯度学习算法。由策略梯度定理▽θJ（θ）=Es～u，a～π[▽θlogπθ（a|s，θ）Qπ（s，a）]，可知，我们需要通过采样，以使样本梯度的期望与目标函数的实际梯度相等。用采样数据at代替a，st代替s，又因为：Es～u，a～π[Gt|st，at]=Qπ（st，at）则有：▽θJ（θ）=Es～u，a～π[▽θlogπθ（at|st，θ）Qπ（st，at）]=Es～u，a～π[Gt▽θlogπθ（at|st，θ）]结合策略参数的随机梯度上升公式θt+1=θt+α▽J（θt），得到REINFORCE方法。如下：θt+1=θt+α Gt▽θlogπθ（at|st，θ）

datawhalechina / easy-rl

4.3 REINFORCE：蒙特卡洛策略梯度 #135