tinsir888 / tinsir888.github.io-gittalk

Open Comment for Personal Blog
GNU General Public License v3.0
0 stars 0 forks source link

动手强化学习 第八章 深度强化学习策略方法 | min hjemmeside #102

Open tinsir888 opened 5 months ago

tinsir888 commented 5 months ago

https://tinsir888.github.io/posts/4b190c36.html

A3C Actor-Critic 演员采取动作使评论家满意 评论家学会准确估计演员策略所采取动作价值的值函数 A2C Advantage Actor-Critic 通过减去一个基线函数来优化评论家的打分 更多信息指导:降低较差动作概率,提高较优动作概率 进一步降低方差 优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ