starry-sky6688 / MADDPG

Pytorch implementation of the MARL algorithm, MADDPG, which correspondings to the paper "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments".
537 stars 83 forks source link

Q网络的定义 #46

Closed MonaHe123 closed 1 month ago

MonaHe123 commented 1 month ago

作者您好,我想问一下,就是在您的critic网络定义的时候考虑的状态是所有agent的状态吗,但是我看MADDPG的伪代码,每个agent的Q网络考虑的自己的状态和所有的动作,我有点不太明白,麻烦您指导一下~ image image

starry-sky6688 commented 1 month ago
  1. 这里critic输入的是所有agent的状态、动作
  2. 论文为代码里输入的也是所有agent的状态、动作;你是不是看错了,x代表的是全局状态,o才是每个agent的自己的观察
MonaHe123 commented 1 month ago

是的是的,因为x加了一个智能体的index,我理解错了,谢谢您!

starry-sky6688 commented 1 month ago

或许你可以再仔细看看,x的上标是j,i才是智能体的index......