issues
search
junxnone
/
aiwiki
AI Wiki
https://junxnone.github.io/aiwiki
18
stars
2
forks
source link
RL A2C
#460
Open
junxnone
opened
12 months ago
junxnone
commented
12 months ago
Advantage Actor Critic
A2C
Q(s,a) = V (s) + A (s, a)
V (s)
为状态值函数
A (s, a)
为优势值-
优势函数评估在给定状态下与其他行为相比更好的行为
引入了并行架构,各个 worker 都会独立的跟自己的环境去交互,得到独立的采样经验,而这些经验之间也是相互独立的,这样就打破了经验之间的耦合,起到跟 Experiencre Replay 相当的效果
Advantage Actor Critic
Q(s,a) = V (s) + A (s, a)
V (s)
为状态值函数A (s, a)
为优势值-