Closed deligentfool closed 5 years ago
https://github.com/wwxFromTju/maddpg-tf/blob/4a2cff76bba22e0e6ce09add32cb35a68eb4e697/three_agent_maddpg.py#L61 这里的求target_Q用的next_action不是应该用agent_ddpg_target求吗,为什么用agent_ddpg求?
可以理解成类似Double DQN的方法,因为就是training critic的,你可以修改成target。
原来如此,受教啦
https://github.com/wwxFromTju/maddpg-tf/blob/4a2cff76bba22e0e6ce09add32cb35a68eb4e697/three_agent_maddpg.py#L61 这里的求target_Q用的next_action不是应该用agent_ddpg_target求吗,为什么用agent_ddpg求?