Open tinsir888 opened 5 months ago
https://tinsir888.github.io/posts/4b190c36.html
A3C Actor-Critic 演员采取动作使评论家满意 评论家学会准确估计演员策略所采取动作价值的值函数 A2C Advantage Actor-Critic 通过减去一个基线函数来优化评论家的打分 更多信息指导:降低较差动作概率,提高较优动作概率 进一步降低方差 优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ
https://tinsir888.github.io/posts/4b190c36.html
A3C Actor-Critic 演员采取动作使评论家满意 评论家学会准确估计演员策略所采取动作价值的值函数 A2C Advantage Actor-Critic 通过减去一个基线函数来优化评论家的打分 更多信息指导:降低较差动作概率,提高较优动作概率 进一步降低方差 优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ