Open Ynjxsjmh opened 1 year ago
在中文版的 2.3.2 马尔可夫奖励过程 中介绍了 价值函数(Value Function)V (s),书中是这么说的:
2.3.2 马尔可夫奖励过程
价值函数(Value Function)V (s)
价值函数(Value Function)V(s) 是状态 s 的期望回报(Expected Return)。 一种估计价值 V (s) 的简单方法是蒙特卡罗法,给定一个状态 s,我们用状态转移矩阵 P 随机采样大量的轨迹,来求近似期望。 除了蒙特卡罗方法,还有很多方法可以用来计算 V (s),比如贝尔曼期望方程(Bellman Expectation Equation)、逆矩阵方法(Inverse Matrix Method)等,我们将会在稍后逐一介绍。
价值函数(Value Function)V(s) 是状态 s 的期望回报(Expected Return)。
一种估计价值 V (s) 的简单方法是蒙特卡罗法,给定一个状态 s,我们用状态转移矩阵 P 随机采样大量的轨迹,来求近似期望。
除了蒙特卡罗方法,还有很多方法可以用来计算 V (s),比如贝尔曼期望方程(Bellman Expectation Equation)、逆矩阵方法(Inverse Matrix Method)等,我们将会在稍后逐一介绍。
看到这里,我的理解是目前提到了三种介绍计算价值函数的方法,分别是:蒙特卡罗法、贝尔曼期望方程和逆矩阵方法。其中,蒙特卡罗法方法已经介绍了,贝尔曼期望方程和逆矩阵方法在后面会介绍。
然后在 2.3.4 贝尔曼方程和最优性 章节里介绍:
2.3.4 贝尔曼方程和最优性
贝尔曼方程(Bellman Equation),也称为贝尔曼期望方程,用于计算给定策略 π 时价值函数在策略指引下所采轨迹上的期望。 我们可以利用递归关系得出在线状态价值函数(On Policy State-Value Function)的贝尔曼方程。 ... 如果转移函数或转移矩阵是已知的,公式 (2.26) 中对 MRP 的贝尔曼方程可以直接求解,称为逆矩阵方法(Inverse Matrix Method)。
贝尔曼方程(Bellman Equation),也称为贝尔曼期望方程,用于计算给定策略 π 时价值函数在策略指引下所采轨迹上的期望。
我们可以利用递归关系得出在线状态价值函数(On Policy State-Value Function)的贝尔曼方程。 ... 如果转移函数或转移矩阵是已知的,公式 (2.26) 中对 MRP 的贝尔曼方程可以直接求解,称为逆矩阵方法(Inverse Matrix Method)。
上文就是我找到的所有关于价值函数计算的内容了,里面只介绍了可以在转移函数或转移矩阵已知时,使用 逆矩阵方法 方法计算价值函数的方式。
但是我在全文里并没有找到如何使用 贝尔曼期望方程 如何求解价值函数,文章里虽然使用 贝尔曼期望方程 表示了价值函数的递推关系,但是这个递推关系应该并没有求解价值函数。
请问文章的哪一部分介绍了使用贝尔曼期望方程计算价值函数 V (s) 呢?
本来想在 slack 群组 问的,但是进去的时候提示
Is this the right email? It looks like there isn’t an account on TensorLayer tied to this email address.
Is this the right email?
It looks like there isn’t an account on TensorLayer tied to this email address.
在中文版的
2.3.2 马尔可夫奖励过程
中介绍了价值函数(Value Function)V (s)
,书中是这么说的:看到这里,我的理解是目前提到了三种介绍计算价值函数的方法,分别是:蒙特卡罗法、贝尔曼期望方程和逆矩阵方法。其中,蒙特卡罗法方法已经介绍了,贝尔曼期望方程和逆矩阵方法在后面会介绍。
然后在
2.3.4 贝尔曼方程和最优性
章节里介绍:上文就是我找到的所有关于价值函数计算的内容了,里面只介绍了可以在转移函数或转移矩阵已知时,使用 逆矩阵方法 方法计算价值函数的方式。
但是我在全文里并没有找到如何使用 贝尔曼期望方程 如何求解价值函数,文章里虽然使用 贝尔曼期望方程 表示了价值函数的递推关系,但是这个递推关系应该并没有求解价值函数。
请问文章的哪一部分介绍了使用贝尔曼期望方程计算价值函数 V (s) 呢?
本来想在 slack 群组 问的,但是进去的时候提示