PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning
https://parl.readthedocs.io/
Apache License 2.0
3.24k stars 819 forks source link

MADDPG集中式训练,分布式执行 #920

Closed MrAlaskan closed 2 years ago

MrAlaskan commented 2 years ago

您好,请问MADDPG的代码中为什么没有用集中式训练的方式来训练critic网络呢?我看每一个agent中都有对应的critic网络,对此比较疑惑,希望得到解答。

MrAlaskan commented 2 years ago

再补充一下:我看执行是去中心化的,但没有中心化地去训练,而是每一个agent都要学习一个critic网络。但也不是完全的去中心化,在训练一个agent的critic网络时,会把所有agent观测到的状态叠加作为训练样本,我有点搞不懂究竟是中心化还是去中心化了:如果是去中心化训练的话,一个agent不可能会获取到全局的状态;如果是中心化训练的话,那有一个critic网络不就够了吗,为啥每个智能体都要学习一个critic网络呀。。。

TomorrowIsAnOtherDay commented 2 years ago

如果是中心化训练的话,那有一个critic网络不就够了吗,为啥每个智能体都要学习一个critic网络呀。。。 这是个好问题。目前的评估环境有两类,一类是协作,一类是对抗。 如果是前者,确实只有一个critic网络足够,但是后者,对抗的两方是无法共享同一网络的,比如追捕方需要离猎物越近越好,但是逃跑方是远离追捕者越远越好。

MrAlaskan commented 2 years ago

好的谢谢啦

TomorrowIsAnOtherDay commented 2 years ago

可以star下PARL关注下我们后续的升级:)