tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog
GNU General Public License v3.0
0 stars 0 forks source link

动手强化学习 第四章 无模型控制方法 | min hjemmeside #163

Open tinsir888 opened 3 months ago

tinsir888 commented 3 months ago

https://tinsir888.github.io/posts/acaab951.html

SARSA SARSA 对于当前策略执行每个(状态→动作→奖励→状态→动作)元组 SARSA 更新状态-动作值函数为:Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) 使