tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog
GNU General Public License v3.0
0 stars 0 forks source link

动手强化学习 第二章 马尔可夫决策过程 | min hjemmeside #165

Open tinsir888 opened 3 months ago

tinsir888 commented 3 months ago

https://tinsir888.github.io/posts/e37e5099.html

马尔可夫决策过程 马尔可夫决策过程 Markov Decision Process, MDP 提供了一套为在结果部分随机,部分在决策者的控制下的决策过程建模的数学框架 MDP 形式化地描述了一种强化学习环境 环境完全可测(不用知道是之前是由怎么样来到当前状态的) 当前状态可以完全表征过程(马尔可夫性质) 马尔可夫性质 The future is independent of