tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog
GNU General Public License v3.0
0 stars 0 forks source link

动手强化学习 第五章 近似逼近方法 | min hjemmeside #113

Open tinsir888 opened 5 months ago

tinsir888 commented 5 months ago

https://tinsir888.github.io/posts/bf2e452b.html

参数化值函数近似 针对之前的模型 都是基于创建一个查询表,再表中维护状态值函数或状态-动作值函数。 当处理大规模的 MDP 时 状态/状态-动作空间非常大 连续的状态或动作空间 维护起来代价太大 处理大规模 MDP 的解决方法 对状态/动作进行离散化或粪桶 构建参数化的值函数估计 对状态/动作进行离散化 例如:在一个二维平面空间中,使用网格对状态空间进行切分,从而转化成离散值 对于