nndl / solutions

《神经网络与深度学习》课后习题答案-分享讨论
690 stars 80 forks source link

习题7-1 #52

Open simo-an opened 2 years ago

simo-an commented 2 years ago

题目

习题7-1 在小批量梯度下降中, 试分析为什么学习率要和批量大小成正比.

解答

影响小批量梯度下降法的主要因素有: 1) 批量大小𝐾、 2) 学习率𝛼、 3) 梯度估计.

那么如何选择批量大小K呢?

一般而言, 批量大小不影响随机梯度的期望, 但是会影响随机梯度的方差.

  1. 批量大小越大, 随机梯度的方差越小, 引入的噪声也越小, 训练也越稳定, 因此可以设置较大的学习率.
  2. 而批量大小较小时, 需要设置较小的学习率, 否则模型会不收敛.

学习率通常要随着批量大小的增大而相应地增大. 下面给出一个简单有效的方法:

线性缩放规则

当批量大小增加 𝑚 倍时, 学习率也增加 𝑚 倍. 线性缩放规则往往在批量大小比较小时适用, 当批量大小非常大时, 线性缩放会使得训练不稳定.

image

为了使在使用 mK 哥样本之后,参数的更新值类似,所以 当批量大小增加 𝑚 倍时, 学习率也增加 𝑚 倍.

Lipapaldl commented 6 months ago

a2 = m * a1?