强化学习 - Githubissues

PaPaPaPatrick / DecisionTech

0 stars 0 forks source link

Open PaPaPaPatrick opened 2 years ago

PaPaPaPatrick commented 2 years ago

MDP在贝曼方程中三个概念：

因此2和3有关系 Vπ(S) = Sum(a ∈ A) π（a | S）Qπ（S,a）

在强化学习中，关键是找出最优策略，使得每一个状态对应值函数最大

PaPaPaPatrick commented 2 years ago

由于马尔科夫的假设会认为Xt的状态代表了所有（比如交互者的意图），但在过程中会发生变化，因此视野过长也会存在较大问题

PaPaPaPatrick commented 1 year ago

PaPaPaPatrick commented 3 months ago

PaPaPaPatrick commented 3 months ago

贝尔曼方程的推导及理解：https://zhuanlan.zhihu.com/p/688029400 Note:

贝尔曼公式给出了值函数的一个递推关系式. 当前状态的值函数，可以由下一状态的值函数完全确定.

总的来说，贝尔曼方程给出了关于值函数的方程，通过解这个方程我们就能得到对应状态的值函数的值，从而进行策略评估或者策略选择。

PaPaPaPatrick commented 3 months ago

PaPaPaPatrick commented 3 months ago

PaPaPaPatrick commented 1 month ago