如何使用贝尔曼期望方程计算价值函数 V (s)？

在中文版的 2.3.2 马尔可夫奖励过程 中介绍了 价值函数（Value Function）V (s)，书中是这么说的：

价值函数（Value Function）V(s) 是状态 s 的期望回报（Expected Return）。

一种估计价值 V (s) 的简单方法是蒙特卡罗法，给定一个状态 s，我们用状态转移矩阵 P 随机采样大量的轨迹，来求近似期望。

除了蒙特卡罗方法，还有很多方法可以用来计算 V (s)，比如贝尔曼期望方程（Bellman Expectation Equation）、逆矩阵方法（Inverse Matrix Method）等，我们将会在稍后逐一介绍。

看到这里，我的理解是目前提到了三种介绍计算价值函数的方法，分别是：蒙特卡罗法、贝尔曼期望方程和逆矩阵方法。其中，蒙特卡罗法方法已经介绍了，贝尔曼期望方程和逆矩阵方法在后面会介绍。

然后在 2.3.4 贝尔曼方程和最优性 章节里介绍：

贝尔曼方程（Bellman Equation），也称为贝尔曼期望方程，用于计算给定策略 π 时价值函数在策略指引下所采轨迹上的期望。

我们可以利用递归关系得出在线状态价值函数（On Policy State-Value Function）的贝尔曼方程。 ... 如果转移函数或转移矩阵是已知的，公式 (2.26) 中对 MRP 的贝尔曼方程可以直接求解，称为逆矩阵方法（Inverse Matrix Method）。

上文就是我找到的所有关于价值函数计算的内容了，里面只介绍了可以在转移函数或转移矩阵已知时，使用 逆矩阵方法 方法计算价值函数的方式。

但是我在全文里并没有找到如何使用 贝尔曼期望方程 如何求解价值函数，文章里虽然使用 贝尔曼期望方程 表示了价值函数的递推关系，但是这个递推关系应该并没有求解价值函数。

请问文章的哪一部分介绍了使用贝尔曼期望方程计算价值函数 V (s) 呢？

本来想在 slack 群组问的，但是进去的时候提示

Is this the right email?

It looks like there isn’t an account on TensorLayer tied to this email address.

tensorlayer / TensorLayer

如何使用贝尔曼期望方程计算价值函数 V (s)？ #1161