More explanations on why Dueling DQN separates Q function

老师好，6.3 节对决网络（Dueling Network）好像没有对 Dueling DQN “为什么要把 Q 值函数拆开” 的解释，所以我最开始看完了这一节后依然有点困惑，所以希望可以加一些这部分的解释。（当然如果是我遗漏了这一部分的话，那非常抱歉 😂）

我目前对 Dueling DQN 的粗浅的理解是，它拆 Q 值函数是为了把状态和动作分开考虑，从而能够判断 Q 值高到底是因为状态好所以随便什么动作都行，还是真的是因为动作好。另一方面，如果有很多状态都不受动作影响，那 Dueling DQN 能学习的更快一些。（不知道这个理解有没有啥问题）

最后感谢老师，辛苦了。

wangshusen / DRL