PaperCommunity / Deep-Reinforcement-Learning

1 stars 4 forks source link

EMERGENT COORDINATION THROUGH COMPETITION #7

Open initial-h opened 5 years ago

initial-h commented 5 years ago

我个人觉得这篇文章的贡献主要在于建立了一个多智能体的足球环境,算法上面没有什么亮点,PBT群体进化结合SVG0强化学习。就2V2这个动作空间3维的简单环境来看,即使出现了合作的现象,也是情理之中,并不见得MADDPG等等算法做不到。而至于说该算法是去中心化的,但80亿的训练step,相比MMDDPG算法25000个episodes(估计step顶多千万级别),优势貌似也不存在了。至于文章题目,我个人觉得有点浮夸了。

initial-h commented 5 years ago

又看了一下,他写的是80B,那应该是800亿步。而且具体用了多少计算资源也不太清楚。