Open namidairo777 opened 6 years ago
@namidairo777 实际上我做了,没有上传而已,只要你用DDPG控制它就好。视觉上的效果差别并不大。
你有做过4 vs 2没有,效果怎么样?
@namidairo777 4vs 2 的没有跑,我看你开了个repo,写的很不错啊!
这是我最近在做的。刚好最近实验跑完了,总结了一下。 我那个2vs1跑了20来个小时才3800回合。 4v2跑了整整两天。。
@namidairo777 之后我跑一下,看看怎么样,有机会可以多聊聊。我现在研一,你呢?
我研二,马上毕业参加工作了。 蛮看到Multi-Agent DRL这个方向的,哈哈哈
@namidairo777 soka,还以为是phd呢,repo的readMe写的很好啊
谢谢呀,readme总结了蛮久的。可是代码写的比较乱。
@namidairo777 还没看代码,之后看一下,有不清楚的地方,到时候我在提issue
我个人推荐OpenAI的baselines,写得太好了
在simple_tag环境中有3个adversary agents和一个good agent。 你的good agent好像是random运动的。 我觉得需要把ddpg的算法赋给good agent,相当于 3个predator和一个prey在同一个环境中学习,predator学习包夹策略,prey学习逃跑策略。 原论文在simple_tag上就是我说的实验方法,虽然这样做环境和学习都会变得non-stationary,学习也会超级慢。