Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

这篇文章效果显著，思想也顺理成章，文章还证明了policy gradient方法失效的原因。但我个人从另一方面YY，这个方法思想浅显且效果显著，其他学者应该也想到了类似方法，最终却没有做出效果，可见这其中的trick应该不少。另外实验结果也间接说明了其他agent的策略信息对训练有多少实质性的帮助并不清楚。

PaperCommunity / Deep-Reinforcement-Learning

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments #2