datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.36k stars 1.86k forks source link

第三章第四节书中60页价值函数是单调的证明过程是不是有问题? #163

Closed lixinliu1995 closed 3 weeks ago

lixinliu1995 commented 2 months ago

image

上面红框式子是取Q函数的最大值;下面红框式子中对Q函数进行了加权求和,π函数减去一个很小的数,除以一个比1小的数。我想问下这不等式是怎么成立的?

lixinliu1995 commented 2 months ago

image 补充

qiwang067 commented 3 weeks ago

@lixinliu1995 您可以参考下面的推导过程:

image

image