Open tinsir888 opened 5 months ago
https://tinsir888.github.io/posts/786e440a.html
learning by planing 入门算法与介绍 模型是什么 给定一个状态和动作,模型能够预测下一个状态和奖励的分布,即P(s′,r∣s,a)P(s',r|s,a)P(s′,r∣s,a) s, a:给定的状态和动作 s’, r:下一个状态和奖励 模型的分类:分布模型(distribution model,类似于白盒模型)、样本模型(sample model,黑盒模型) 以掷
https://tinsir888.github.io/posts/786e440a.html
learning by planing 入门算法与介绍 模型是什么 给定一个状态和动作,模型能够预测下一个状态和奖励的分布,即P(s′,r∣s,a)P(s',r|s,a)P(s′,r∣s,a) s, a:给定的状态和动作 s’, r:下一个状态和奖励 模型的分类:分布模型(distribution model,类似于白盒模型)、样本模型(sample model,黑盒模型) 以掷