Open simo-an opened 2 years ago
习题7-1 在小批量梯度下降中, 试分析为什么学习率要和批量大小成正比.
影响小批量梯度下降法的主要因素有: 1) 批量大小𝐾、 2) 学习率𝛼、 3) 梯度估计.
一般而言, 批量大小不影响随机梯度的期望, 但是会影响随机梯度的方差.
学习率通常要随着批量大小的增大而相应地增大. 下面给出一个简单有效的方法:
线性缩放规则
当批量大小增加 𝑚 倍时, 学习率也增加 𝑚 倍. 线性缩放规则往往在批量大小比较小时适用, 当批量大小非常大时, 线性缩放会使得训练不稳定.
为了使在使用 mK 哥样本之后,参数的更新值类似,所以 当批量大小增加 𝑚 倍时, 学习率也增加 𝑚 倍.
a2 = m * a1?
题目
习题7-1 在小批量梯度下降中, 试分析为什么学习率要和批量大小成正比.
解答
影响小批量梯度下降法的主要因素有: 1) 批量大小𝐾、 2) 学习率𝛼、 3) 梯度估计.
那么如何选择批量大小K呢?
一般而言, 批量大小不影响随机梯度的期望, 但是会影响随机梯度的方差.
学习率通常要随着批量大小的增大而相应地增大. 下面给出一个简单有效的方法:
线性缩放规则
当批量大小增加 𝑚 倍时, 学习率也增加 𝑚 倍. 线性缩放规则往往在批量大小比较小时适用, 当批量大小非常大时, 线性缩放会使得训练不稳定.
为了使在使用 mK 哥样本之后,参数的更新值类似,所以 当批量大小增加 𝑚 倍时, 学习率也增加 𝑚 倍.