Closed L-Spike closed 2 years ago
代码里qmix是每200次训练后将当前网络的参数全部复制到目标网络。 之前看到一些算法像DQN里的目标网络参数都是采用软更新,这样似乎稳定性更好。 所以想问一下qmix的目标网络更新可以采用软更新方式么?
可以,用什么更新方式并不是固定的
代码里qmix是每200次训练后将当前网络的参数全部复制到目标网络。 之前看到一些算法像DQN里的目标网络参数都是采用软更新,这样似乎稳定性更好。 所以想问一下qmix的目标网络更新可以采用软更新方式么?