maddpg算法有一些问题

princewen / tensorflow_practice

tensorflow实战练习，包括强化学习、推荐系统、nlp等

6.67k stars 3.27k forks source link

Open hanhanpp opened 3 years ago

hanhanpp commented 3 years ago

我发现你的MADDPG代码与原文有一些出入，不知道怎么回事：（1） critic的输入只包括了对应agent的观测，而原文是所有agent的观测（2）memory buffer 保存数据时，不同agent的动作保存顺序是不同的，而原文是一致的，不区分不同的agent