Learning to Communicate with Deep Multi-Agent Reinforcement Learning

这是年前讲的一篇有关多智能体通信的文章，当时提出的主要问题有如下两点：①在处理动态环境的快速反应问题上，DIAL表现是否也能及时反馈 ②无论是RIAL还是DIAL，只在训练时才会有梯度回传，但是在测试时是不会有梯度回传的，而通讯信息都封装在梯度中，，我的回答是训练完成后，相当于智能体就有模型了，这时即使不回传通信消息智能体也能协同工作，就向reward一样，训练时才有用，但在测试时不需要。不知道对不对，。

PaperCommunity / Deep-Reinforcement-Learning

Learning to Communicate with Deep Multi-Agent Reinforcement Learning #5