tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog
GNU General Public License v3.0
0 stars 0 forks source link

动手强化学习 第六章 规划与学习 | min hjemmeside #107

Open tinsir888 opened 5 months ago

tinsir888 commented 5 months ago

https://tinsir888.github.io/posts/786e440a.html

learning by planing 入门算法与介绍 模型是什么 给定一个状态和动作,模型能够预测下一个状态和奖励的分布,即P(s′,r∣s,a)P(s',r|s,a)P(s′,r∣s,a) s, a:给定的状态和动作 s’, r:下一个状态和奖励 模型的分类:分布模型(distribution model,类似于白盒模型)、样本模型(sample model,黑盒模型) 以掷