动手强化学习第二章马尔可夫决策过程

https://tinsir888.github.io/posts/e37e5099.html

马尔可夫决策过程马尔可夫决策过程 Markov Decision Process, MDP 提供了一套为在结果部分随机，部分在决策者的控制下的决策过程建模的数学框架 MDP 形式化地描述了一种强化学习环境环境完全可测（不用知道是之前是由怎么样来到当前状态的）当前状态可以完全表征过程（马尔可夫性质）马尔可夫性质 The future is independent of

tinsir888 / tinsir888.github.io-gittalk

动手强化学习第二章马尔可夫决策过程 | min hjemmeside #165

tinsir888 / tinsir888.github.io-gittalk

动手强化学习 第二章 马尔可夫决策过程 | min hjemmeside #165

动手强化学习第二章马尔可夫决策过程 | min hjemmeside #165