junxnone / aiwiki

AI Wiki

https://junxnone.github.io/aiwiki

18 stars 2 forks source link

RL A2C #460

Open junxnone opened 12 months ago

junxnone commented 12 months ago

Advantage Actor Critic

A2C
Q(s,a) = V (s) + A (s, a)
- V (s) 为状态值函数
- A (s, a) 为优势值-
优势函数评估在给定状态下与其他行为相比更好的行为
引入了并行架构，各个 worker 都会独立的跟自己的环境去交互，得到独立的采样经验，而这些经验之间也是相互独立的，这样就打破了经验之间的耦合，起到跟 Experiencre Replay 相当的效果