Closed Clown1206 closed 2 years ago
您好,我最近在学习QMIX算法,遇到了一个问题想请教您,像VDN、QMIX这种多智能体强化学算法中,智能体的决策都是同时进行的吗,如果智能体的决策不同步,是不是就不能用这些算法来训练了。
可以给环境加一个no_option的动作,然后在决策时把其他动作设置为非法动作,这样agent只能选择no_option,从而相当于没有决策
您好,我最近在学习QMIX算法,遇到了一个问题想请教您,像VDN、QMIX这种多智能体强化学算法中,智能体的决策都是同时进行的吗,如果智能体的决策不同步,是不是就不能用这些算法来训练了。