MADDPG集中式训练，分布式执行

PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning

https://parl.readthedocs.io/

Apache License 2.0

3.24k stars 819 forks source link

MADDPG集中式训练，分布式执行 #920

Closed MrAlaskan closed 2 years ago

MrAlaskan commented 2 years ago

您好，请问MADDPG的代码中为什么没有用集中式训练的方式来训练critic网络呢？我看每一个agent中都有对应的critic网络，对此比较疑惑，希望得到解答。

MrAlaskan commented 2 years ago

再补充一下：我看执行是去中心化的，但没有中心化地去训练，而是每一个agent都要学习一个critic网络。但也不是完全的去中心化，在训练一个agent的critic网络时，会把所有agent观测到的状态叠加作为训练样本，我有点搞不懂究竟是中心化还是去中心化了：如果是去中心化训练的话，一个agent不可能会获取到全局的状态；如果是中心化训练的话，那有一个critic网络不就够了吗，为啥每个智能体都要学习一个critic网络呀。。。

TomorrowIsAnOtherDay commented 2 years ago

如果是中心化训练的话，那有一个critic网络不就够了吗，为啥每个智能体都要学习一个critic网络呀。。。这是个好问题。目前的评估环境有两类，一类是协作，一类是对抗。如果是前者，确实只有一个critic网络足够，但是后者，对抗的两方是无法共享同一网络的，比如追捕方需要离猎物越近越好，但是逃跑方是远离追捕者越远越好。

MrAlaskan commented 2 years ago

好的谢谢啦

TomorrowIsAnOtherDay commented 2 years ago

可以star下PARL关注下我们后续的升级：）