qqiang00 / Reinforce

Reinforcement Learning Algorithm Package & PuckWorld, GridWorld Gym environments
842 stars 485 forks source link

关于DDQN的问题 #6

Open Alexander-Jing opened 3 years ago

Alexander-Jing commented 3 years ago

大佬您好,我在跟着相关笔记学习,想问下,关于您笔记中的DDQN部分,对于目标价值Qtarget的计算,笔记中用的是使得产生交互行为的网络θ最优的行为a',再将a‘代入目标价值网络θ'中进行计算;有些地方我看到的是直接在目标价值网络θ'里面直接求最优的a'然后计算目标价值,不知道这样有什么不同