PaperCommunity / Deep-Reinforcement-Learning

1 stars 4 forks source link

Learning to Communicate with Deep Multi-Agent Reinforcement Learning #5

Open DreamChaser128 opened 5 years ago

DreamChaser128 commented 5 years ago

这是年前讲的一篇有关多智能体通信的文章,当时提出的主要问题有如下两点:①在处理动态环境的快速反应问题上,DIAL表现是否也能及时反馈 ②无论是RIAL还是DIAL,只在训练时才会有梯度回传,但是在测试时是不会有梯度回传的,而通讯信息都封装在梯度中,,我的回答是训练完成后,相当于智能体就有模型了,这时即使不回传通信消息智能体也能协同工作,就向reward一样,训练时才有用,但在测试时不需要。不知道对不对,。