datawhalechina / easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Other
9.09k stars 1.82k forks source link

电子版94页和102问题请教 #96

Closed zichunxx closed 2 years ago

zichunxx commented 2 years ago

作者您好,下图画红线的地方应该是Sa,对吧?

微信截图_20220502155618

还有另外一个问题,下图红圈标出的at是不是改为at+1更好呢?还是我理解的不对?请您指教哈~

微信图片编辑_20220502160216

qiwang067 commented 2 years ago

作者您好,下图画红线的地方应该是Sa,对吧?

微信截图_20220502155618

还有另外一个问题,下图红圈标出的at是不是改为at+1更好呢?还是我理解的不对?请您指教哈~

微信图片编辑_20220502160216

@QUIlToT ,感谢您的反馈:+1:,94页中的下图红框的地方应该是 $s_a$。

image 关于102页,需要修改的地方如下图所示,这里的 $a$ 没有问题,就是一个能让 Q 值最大的动作的变量。 image

zichunxx commented 2 years ago

作者您好,下图画红线的地方应该是Sa,对吧?

微信截图_20220502155618

还有另外一个问题,下图红圈标出的at是不是改为at+1更好呢?还是我理解的不对?请您指教哈~ 微信图片编辑_20220502160216

@QUIlToT ,感谢您的反馈👍,94页中的下图红框的地方应该是 $s_a$。

image 关于102页,需要修改的地方如下图所示,这里的 $a$ 没有问题,就是一个能让 Q 值最大的动作的变量。 image

谢谢您的回复!

第二个问题确实是我弄错了,可是我觉得您第二张图片的Q_hat 不改成 Q 好一点,因为我理解您说的这个目标值由目标网络Q_hat产生,在不改的前提下可能更容易区分两个网络之间的关系。

如果不改的话,下图的这里修改成Q_hat是否更好的一点呢?

谢谢!

微信截图_20220502195857
qiwang067 commented 2 years ago

作者您好,下图画红线的地方应该是Sa,对吧?

微信截图_20220502155618

还有另外一个问题,下图红圈标出的at是不是改为at+1更好呢?还是我理解的不对?请您指教哈~ 微信图片编辑_20220502160216

@QUIlToT ,感谢您的反馈👍,94页中的下图红框的地方应该是 $s_a$。 image 关于102页,需要修改的地方如下图所示,这里的 $a$ 没有问题,就是一个能让 Q 值最大的动作的变量。 image

谢谢您的回复!

第二个问题确实是我弄错了,可是我觉得您第二张图片的Q_hat 不改成 Q 好一点,因为我理解您说的这个目标值由目标网络Q_hat产生,在不改的前提下可能更容易区分两个网络之间的关系。

如果不改的话,下图的这里修改成Q_hat是否更好的一点呢?

谢谢!

微信截图_20220502195857

@QUIlToT 感谢您的反馈:+1:,参考您的建议,修改如下图所示: image

zichunxx commented 2 years ago

作者您好,下图画红线的地方应该是Sa,对吧?

微信截图_20220502155618

还有另外一个问题,下图红圈标出的at是不是改为at+1更好呢?还是我理解的不对?请您指教哈~ 微信图片编辑_20220502160216

@QUIlToT ,感谢您的反馈👍,94页中的下图红框的地方应该是 $s_a$。 image 关于102页,需要修改的地方如下图所示,这里的 $a$ 没有问题,就是一个能让 Q 值最大的动作的变量。 image

谢谢您的回复! 第二个问题确实是我弄错了,可是我觉得您第二张图片的Q_hat 不改成 Q 好一点,因为我理解您说的这个目标值由目标网络Q_hat产生,在不改的前提下可能更容易区分两个网络之间的关系。 如果不改的话,下图的这里修改成Q_hat是否更好的一点呢? 谢谢!

微信截图_20220502195857

@QUIlToT 感谢您的反馈👍,参考您的建议,修改如下图所示: image

谢谢您的耐心回复

qiwang067 commented 2 years ago

作者您好,下图画红线的地方应该是Sa,对吧?

微信截图_20220502155618

还有另外一个问题,下图红圈标出的at是不是改为at+1更好呢?还是我理解的不对?请您指教哈~ 微信图片编辑_20220502160216

@QUIlToT ,感谢您的反馈👍,94页中的下图红框的地方应该是 $s_a$。 image 关于102页,需要修改的地方如下图所示,这里的 $a$ 没有问题,就是一个能让 Q 值最大的动作的变量。 image

谢谢您的回复! 第二个问题确实是我弄错了,可是我觉得您第二张图片的Q_hat 不改成 Q 好一点,因为我理解您说的这个目标值由目标网络Q_hat产生,在不改的前提下可能更容易区分两个网络之间的关系。 如果不改的话,下图的这里修改成Q_hat是否更好的一点呢? 谢谢!

微信截图_20220502195857

@QUIlToT 感谢您的反馈👍,参考您的建议,修改如下图所示: image

谢谢您的耐心回复

客气啦:)