动手强化学习第三章值函数估计 | min hjemmeside

tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog

GNU General Public License v3.0

0 stars 0 forks source link

动手强化学习第三章值函数估计 | min hjemmeside #164

Open tinsir888 opened 6 months ago

tinsir888 commented 6 months ago

https://tinsir888.github.io/posts/4730b98c.html

蒙特卡洛方法模型无关的强化学习在现实问题中，通常没有明确给出状态转移和奖励函数比如，我们只看到了一些 episodes（采样）： Episode1: s0(1)→a0(1),R(s0)(1)s1(1)→a1(1),R(s1)(1)s2(1)⋯sT(1)s_0^{(1)}\xrightarrow{a_0^{(1)},R(s_0)^{(1)}}s_1^{(1)}\xrightarro

tinsir888 / tinsir888.github.io-gittalk

动手强化学习 第三章 值函数估计 | min hjemmeside #164

动手强化学习第三章值函数估计 | min hjemmeside #164