关于DDQN的问题 - Githubissues

大佬您好，我在跟着相关笔记学习，想问下，关于您笔记中的DDQN部分，对于目标价值Qtarget的计算，笔记中用的是使得产生交互行为的网络θ最优的行为a'，再将a‘代入目标价值网络θ'中进行计算；有些地方我看到的是直接在目标价值网络θ'里面直接求最优的a'然后计算目标价值，不知道这样有什么不同

qqiang00 / Reinforce