Closed lgzid closed 10 months ago
我在MADDPG.train函数计算q_target部分中并没有对done为True或False进行处理呢,replay_buffer中也没有存储done的值,这样会不会有些不妥呢?
不会,因为这个任务本身就没有结束的条件,是一个continual case
我在MADDPG.train函数计算q_target部分中并没有对done为True或False进行处理呢,replay_buffer中也没有存储done的值,这样会不会有些不妥呢?