Open tinsir888 opened 3 months ago
https://tinsir888.github.io/posts/e37e5099.html
马尔可夫决策过程 马尔可夫决策过程 Markov Decision Process, MDP 提供了一套为在结果部分随机,部分在决策者的控制下的决策过程建模的数学框架 MDP 形式化地描述了一种强化学习环境 环境完全可测(不用知道是之前是由怎么样来到当前状态的) 当前状态可以完全表征过程(马尔可夫性质) 马尔可夫性质 The future is independent of
https://tinsir888.github.io/posts/e37e5099.html
马尔可夫决策过程 马尔可夫决策过程 Markov Decision Process, MDP 提供了一套为在结果部分随机,部分在决策者的控制下的决策过程建模的数学框架 MDP 形式化地描述了一种强化学习环境 环境完全可测(不用知道是之前是由怎么样来到当前状态的) 当前状态可以完全表征过程(马尔可夫性质) 马尔可夫性质 The future is independent of