Open tinsir888 opened 3 months ago
https://tinsir888.github.io/posts/acaab951.html
SARSA SARSA 对于当前策略执行每个(状态→动作→奖励→状态→动作)元组 SARSA 更新状态-动作值函数为:Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) 使
https://tinsir888.github.io/posts/acaab951.html
SARSA SARSA 对于当前策略执行每个(状态→动作→奖励→状态→动作)元组 SARSA 更新状态-动作值函数为:Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a))Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) 使