Closed zichunxx closed 1 year ago
用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的 DQN 高的,代表 DDQN 学习出来的策略比较强,实际上得到的奖励是比较大的。
最新PDF105页:
图 7.1 中蓝色的锯齿状的线是 DDQN 的 Q 网络所估测出来的 Q 值,蓝色的无锯齿状的线是真正的 Q 值,它们是比较接近的。我们不用管用网络估测的值,它比较没有参考价值。我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络高的,代表 DDQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际 上它得到的奖励是比较低的
我理解应改为:
我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络低的,代表 DQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际上它得到的奖励是比较低的。
不知道我理解的对不对
我理解成了DDQN和DQN预测值之间的比较,谢谢回复
我理解成了DDQN和DQN预测值之间的比较,谢谢回复
客气啦~
最新PDF105页:
我理解应改为:
我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络低的,代表 DQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际上它得到的奖励是比较低的。
不知道我理解的对不对