starry-sky6688 / MARL-Algorithms

Implementations of IQL, QMIX, VDN, COMA, QTRAN, MAVEN, CommNet, DyMA-CL, and G2ANet on SMAC, the decentralised micromanagement scenario of StarCraft II
1.46k stars 283 forks source link

关于参数reuse_network #100

Closed zanezhenli closed 1 year ago

zanezhenli commented 1 year ago

作者你好,我想再一下,关于代码中reuse_network = True,是代表每个agent都共用一个agnet network对吧?那这样的话,会不会最后造成每个智能体都产生相同的动作呢? 因为我在自建的环境中使用qmix算法,整体reward训练后越来越差。而且如果将epsilon定为0之后,好像智能体都趋向于选择相同的动作,而这种相同的动作恰恰会在环境中带来很大的惩罚值。实在不明白是什么原因。

starry-sky6688 commented 1 year ago

是代表每个agent都共用一个agnet network,但是会给网络输入当前agent的编号,从而让他们得到的动作不一样

这样用是因为SMAC中的agent之间存在共性,用一个网络来加速训练, 如果你的环境中agent没有共性,那么就不适合这种方法

zhangmazi123321 commented 1 year ago

你好请问现在支持reuse_network = False吗

starry-sky6688 commented 1 year ago

你好请问现在支持reuse_network = False吗

不支持,改了会出错的