tensorlayer / TensorLayer

Deep Learning and Reinforcement Learning Library for Scientists and Engineers
http://tensorlayerx.com
Other
7.31k stars 1.61k forks source link

如何使用贝尔曼期望方程计算价值函数 V (s)? #1161

Open Ynjxsjmh opened 1 year ago

Ynjxsjmh commented 1 year ago

中文版2.3.2 马尔可夫奖励过程 中介绍了 价值函数(Value Function)V (s),书中是这么说的:

价值函数(Value Function)V(s) 是状态 s 的期望回报(Expected Return)。

一种估计价值 V (s) 的简单方法是蒙特卡罗法,给定一个状态 s,我们用状态转移矩阵 P 随机采样大量的轨迹,来求近似期望。

除了蒙特卡罗方法,还有很多方法可以用来计算 V (s),比如贝尔曼期望方程(Bellman Expectation Equation)、逆矩阵方法(Inverse Matrix Method)等,我们将会在稍后逐一介绍。

看到这里,我的理解是目前提到了三种介绍计算价值函数的方法,分别是:蒙特卡罗法、贝尔曼期望方程和逆矩阵方法。其中,蒙特卡罗法方法已经介绍了,贝尔曼期望方程和逆矩阵方法在后面会介绍。

然后在 2.3.4 贝尔曼方程和最优性 章节里介绍:

贝尔曼方程(Bellman Equation),也称为贝尔曼期望方程,用于计算给定策略 π 时价值函数在策略指引下所采轨迹上的期望。

我们可以利用递归关系得出在线状态价值函数(On Policy State-Value Function)的贝尔曼方程。 ... 如果转移函数或转移矩阵是已知的,公式 (2.26) 中对 MRP 的贝尔曼方程可以直接求解,称为逆矩阵方法(Inverse Matrix Method)。

上文就是我找到的所有关于价值函数计算的内容了,里面只介绍了可以在转移函数或转移矩阵已知时,使用 逆矩阵方法 方法计算价值函数的方式。

但是我在全文里并没有找到如何使用 贝尔曼期望方程 如何求解价值函数,文章里虽然使用 贝尔曼期望方程 表示了价值函数的递推关系,但是这个递推关系应该并没有求解价值函数。

请问文章的哪一部分介绍了使用贝尔曼期望方程计算价值函数 V (s) 呢?

本来想在 slack 群组 问的,但是进去的时候提示

Is this the right email?

It looks like there isn’t an account on TensorLayer tied to this email address.