Open tinsir888 opened 6 months ago
https://tinsir888.github.io/posts/4730b98c.html
蒙特卡洛方法 模型无关的强化学习 在现实问题中,通常没有明确给出状态转移和奖励函数 比如,我们只看到了一些 episodes(采样): Episode1: s0(1)→a0(1),R(s0)(1)s1(1)→a1(1),R(s1)(1)s2(1)⋯sT(1)s_0^{(1)}\xrightarrow{a_0^{(1)},R(s_0)^{(1)}}s_1^{(1)}\xrightarro
https://tinsir888.github.io/posts/4730b98c.html
蒙特卡洛方法 模型无关的强化学习 在现实问题中,通常没有明确给出状态转移和奖励函数 比如,我们只看到了一些 episodes(采样): Episode1: s0(1)→a0(1),R(s0)(1)s1(1)→a1(1),R(s1)(1)s2(1)⋯sT(1)s_0^{(1)}\xrightarrow{a_0^{(1)},R(s_0)^{(1)}}s_1^{(1)}\xrightarro