Open YUFEIFUT opened 10 months ago
这道题为啥我认为是除以批量大小呢?问了一下 GPT ,也是除以的
梯度是累积的,貌似就该累积batch大小的学习率?
emmm,我发现这道题其实是逻辑问题,它是问总损失变成了平均损失,那么学习率应该怎么变吧,这个时候学习率应该除以批量的数量吧;
然后说到梯度是累计的,这个应该是指 Pytorch 中的梯度累计吧,这个应该跟这道题关系不大吧
这道题为啥我认为是除以批量大小呢?问了一下 GPT ,也是除以的