动手强化学习第八章深度强化学习策略方法

https://tinsir888.github.io/posts/4b190c36.html

A3C Actor-Critic 演员采取动作使评论家满意评论家学会准确估计演员策略所采取动作价值的值函数 A2C Advantage Actor-Critic 通过减去一个基线函数来优化评论家的打分更多信息指导：降低较差动作概率，提高较优动作概率进一步降低方差优势函数 Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ

tinsir888 / tinsir888.github.io-gittalk

动手强化学习第八章深度强化学习策略方法 | min hjemmeside #102

tinsir888 / tinsir888.github.io-gittalk

动手强化学习 第八章 深度强化学习策略方法 | min hjemmeside #102

动手强化学习第八章深度强化学习策略方法 | min hjemmeside #102