Open tinsir888 opened 5 months ago
https://tinsir888.github.io/posts/bf2e452b.html
参数化值函数近似 针对之前的模型 都是基于创建一个查询表,再表中维护状态值函数或状态-动作值函数。 当处理大规模的 MDP 时 状态/状态-动作空间非常大 连续的状态或动作空间 维护起来代价太大 处理大规模 MDP 的解决方法 对状态/动作进行离散化或粪桶 构建参数化的值函数估计 对状态/动作进行离散化 例如:在一个二维平面空间中,使用网格对状态空间进行切分,从而转化成离散值 对于
https://tinsir888.github.io/posts/bf2e452b.html
参数化值函数近似 针对之前的模型 都是基于创建一个查询表,再表中维护状态值函数或状态-动作值函数。 当处理大规模的 MDP 时 状态/状态-动作空间非常大 连续的状态或动作空间 维护起来代价太大 处理大规模 MDP 的解决方法 对状态/动作进行离散化或粪桶 构建参数化的值函数估计 对状态/动作进行离散化 例如:在一个二维平面空间中,使用网格对状态空间进行切分,从而转化成离散值 对于