PaPaPaPatrick / DecisionTech

0 stars 0 forks source link

强化学习 #2

Open PaPaPaPatrick opened 2 years ago

PaPaPaPatrick commented 2 years ago

MDP在贝曼方程中三个概念:

  1. 策略函数π(S):以state为输入,动作作为输出
  2. 状态价值函数Vπ(S):以π(S)作为action的长期收益
  3. 状态动作价值函数(Q函数):在S下,以π(S)作为策略,采取确定动作a之后的收益

因此2和3有关系 Vπ(S) = Sum(a ∈ A) π(a | S)Qπ(S,a)

在强化学习中,关键是找出最优策略,使得每一个状态对应值函数最大

PaPaPaPatrick commented 2 years ago

由于马尔科夫的假设会认为Xt的状态代表了所有(比如交互者的意图),但在过程中会发生变化,因此视野过长也会存在较大问题

PaPaPaPatrick commented 1 year ago

强化学习书籍 https://laddie132.github.io/Reinforcement-Learning-Notes/

https://hrl.boyuai.com/chapter/1/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96%E8%BF%87%E7%A8%8B/

PaPaPaPatrick commented 3 months ago

重要性采样:https://zhuanlan.zhihu.com/p/371156865

PaPaPaPatrick commented 3 months ago

贝尔曼方程的推导及理解:https://zhuanlan.zhihu.com/p/688029400 Note:

贝尔曼公式给出了值函数的一个递推关系式. 当前状态的值函数,可以由下一状态的值函数完全确定.

总的来说,贝尔曼方程给出了关于值函数的方程,通过解这个方程我们就能得到对应状态的值函数的值,从而进行策略评估或者策略选择。

PaPaPaPatrick commented 3 months ago

大语言模型和强化学习结合的介绍:https://421zuoduan.github.io/2024/05/23/mllm/RL-note/

PaPaPaPatrick commented 3 months ago

DPO简化RLHF过程的公式推导:https://zhuanlan.zhihu.com/p/671780768?utm_psn=1774064731529293824

PaPaPaPatrick commented 1 month ago

各类强化学习的汇总:https://zhuanlan.zhihu.com/p/255111887