princewen / tensorflow_practice

tensorflow实战练习,包括强化学习、推荐系统、nlp等
6.67k stars 3.27k forks source link

maddpg算法有一些问题 #68

Open hanhanpp opened 3 years ago

hanhanpp commented 3 years ago

我发现你的MADDPG代码与原文有一些出入,不知道怎么回事: (1) critic的输入只包括了对应agent的观测,而原文是所有agent的观测 (2)memory buffer 保存数据时,不同agent的动作保存顺序是不同的,而原文是一致的,不区分不同的agent