tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog
GNU General Public License v3.0
0 stars 0 forks source link

动手强化学习 第三章 值函数估计 | min hjemmeside #164

Open tinsir888 opened 6 months ago

tinsir888 commented 6 months ago

https://tinsir888.github.io/posts/4730b98c.html

蒙特卡洛方法 模型无关的强化学习 在现实问题中,通常没有明确给出状态转移和奖励函数 比如,我们只看到了一些 episodes(采样): Episode1: s0(1)→a0(1),R(s0)(1)s1(1)→a1(1),R(s1)(1)s2(1)⋯sT(1)s_0^{(1)}\xrightarrow{a_0^{(1)},R(s_0)^{(1)}}s_1^{(1)}\xrightarro