datawhalechina / d2l-ai-solutions-manual

《动手学深度学习》习题解答,在线阅读地址如下:
https://datawhalechina.github.io/d2l-ai-solutions-manual/
Other
337 stars 63 forks source link

这道题为啥我认为是除以批量大小呢? #47

Open YUFEIFUT opened 10 months ago

YUFEIFUT commented 10 months ago

image

这道题为啥我认为是除以批量大小呢?问了一下 GPT ,也是除以的

image

Ethan-Chen-plus commented 10 months ago

梯度是累积的,貌似就该累积batch大小的学习率?

YUFEIFUT commented 9 months ago

emmm,我发现这道题其实是逻辑问题,它是问总损失变成了平均损失,那么学习率应该怎么变吧,这个时候学习率应该除以批量的数量吧;

然后说到梯度是累计的,这个应该是指 Pytorch 中的梯度累计吧,这个应该跟这道题关系不大吧