wangshusen / DRL

Deep Reinforcement Learning
Other
3.38k stars 591 forks source link

More explanations on why Dueling DQN separates Q function #16

Open Renovamen opened 3 years ago

Renovamen commented 3 years ago

老师好,6.3 节对决网络(Dueling Network)好像没有对 Dueling DQN “为什么要把 Q 值函数拆开” 的解释,所以我最开始看完了这一节后依然有点困惑,所以希望可以加一些这部分的解释。(当然如果是我遗漏了这一部分的话,那非常抱歉 😂)

我目前对 Dueling DQN 的粗浅的理解是,它拆 Q 值函数是为了把状态和动作分开考虑,从而能够判断 Q 值高到底是因为状态好所以随便什么动作都行,还是真的是因为动作好。另一方面,如果有很多状态都不受动作影响,那 Dueling DQN 能学习的更快一些。(不知道这个理解有没有啥问题)

最后感谢老师,辛苦了。

wangshusen commented 3 years ago

其实我也没有找到详细而又信服的解释,所以也不能在书里面写。如果你看到有好的解释,麻烦告诉我一下。多谢了!