Open PaPaPaPatrick opened 2 years ago
由于马尔科夫的假设会认为Xt的状态代表了所有(比如交互者的意图),但在过程中会发生变化,因此视野过长也会存在较大问题
贝尔曼方程的推导及理解:https://zhuanlan.zhihu.com/p/688029400 Note:
贝尔曼公式给出了值函数的一个递推关系式. 当前状态的值函数,可以由下一状态的值函数完全确定.
总的来说,贝尔曼方程给出了关于值函数的方程,通过解这个方程我们就能得到对应状态的值函数的值,从而进行策略评估或者策略选择。
大语言模型和强化学习结合的介绍:https://421zuoduan.github.io/2024/05/23/mllm/RL-note/
DPO简化RLHF过程的公式推导:https://zhuanlan.zhihu.com/p/671780768?utm_psn=1774064731529293824
各类强化学习的汇总:https://zhuanlan.zhihu.com/p/255111887
MDP在贝曼方程中三个概念:
因此2和3有关系 Vπ(S) = Sum(a ∈ A) π(a | S)Qπ(S,a)
在强化学习中,关键是找出最优策略,使得每一个状态对应值函数最大