datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.04k stars 1.81k forks source link

内容勘误? #132

Closed zichunxx closed 1 year ago

zichunxx commented 1 year ago

最新PDF105页:

图 7.1 中蓝色的锯齿状的线是 DDQN 的 Q 网络所估测出来的 Q 值,蓝色的无锯齿状的线是真正的 Q 值,它们是比较接近的。我们不用管用网络估测的值,它比较没有参考价值。我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络高的,代表 DDQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际 上它得到的奖励是比较低的

我理解应改为:

我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络低的,代表 DQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际上它得到的奖励是比较低的。

不知道我理解的对不对

qiwang067 commented 1 year ago

用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的 DQN 高的,代表 DDQN 学习出来的策略比较强,实际上得到的奖励是比较大的。

最新PDF105页:

图 7.1 中蓝色的锯齿状的线是 DDQN 的 Q 网络所估测出来的 Q 值,蓝色的无锯齿状的线是真正的 Q 值,它们是比较接近的。我们不用管用网络估测的值,它比较没有参考价值。我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络高的,代表 DDQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际 上它得到的奖励是比较低的

我理解应改为:

我们用 DDQN 得出的真正的 Q 值在图 7.1 的 3 种情况下都是比原来的深度 Q 网络低的,代表 DQN 学习出来的策略比较强, 所以实际上得到的奖励是比较大的。虽然一般的深度 Q 网络的 Q 网络高估了自己会得到的奖励,但实际上它得到的奖励是比较低的。

不知道我理解的对不对

zichunxx commented 1 year ago

我理解成了DDQN和DQN预测值之间的比较,谢谢回复

qiwang067 commented 1 year ago

我理解成了DDQN和DQN预测值之间的比较,谢谢回复

客气啦~