wwxFromTju / maddpg-tf

use tensorflow to implement the MADDPG(simple_tag)
17 stars 5 forks source link

Hello #1

Open namidairo777 opened 6 years ago

namidairo777 commented 6 years ago

在simple_tag环境中有3个adversary agents和一个good agent。 你的good agent好像是random运动的。 我觉得需要把ddpg的算法赋给good agent,相当于 3个predator和一个prey在同一个环境中学习,predator学习包夹策略,prey学习逃跑策略。 原论文在simple_tag上就是我说的实验方法,虽然这样做环境和学习都会变得non-stationary,学习也会超级慢。

wwxFromTju commented 6 years ago

@namidairo777 实际上我做了,没有上传而已,只要你用DDPG控制它就好。视觉上的效果差别并不大。

namidairo777 commented 6 years ago

你有做过4 vs 2没有,效果怎么样?

wwxFromTju commented 6 years ago

@namidairo777 4vs 2 的没有跑,我看你开了个repo,写的很不错啊!

namidairo777 commented 6 years ago

这是我最近在做的。刚好最近实验跑完了,总结了一下。 我那个2vs1跑了20来个小时才3800回合。 4v2跑了整整两天。。

wwxFromTju commented 6 years ago

@namidairo777 之后我跑一下,看看怎么样,有机会可以多聊聊。我现在研一,你呢?

namidairo777 commented 6 years ago

我研二,马上毕业参加工作了。 蛮看到Multi-Agent DRL这个方向的,哈哈哈

wwxFromTju commented 6 years ago

@namidairo777 soka,还以为是phd呢,repo的readMe写的很好啊

namidairo777 commented 6 years ago

谢谢呀,readme总结了蛮久的。可是代码写的比较乱。

wwxFromTju commented 6 years ago

@namidairo777 还没看代码,之后看一下,有不清楚的地方,到时候我在提issue

namidairo777 commented 6 years ago

我个人推荐OpenAI的baselines,写得太好了