Open lealaxy opened 2 years ago
https://peterli.club/2022/%5B%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%5D%E4%BD%99%E5%BC%A6%E9%80%80%E7%81%AB%E5%AD%A6%E4%B9%A0%E7%8E%87/
模型训练Trick背景:深层神经网络难训练是因为学习过程容易陷入到马鞍面中,即在坡面上,一部分点是上升的,一部分点是下降的,如图在z轴上是最小值,而在x轴上是最大值。马鞍面上损失对参数的一阶导数为0,二阶导数的正负值不相同,由于梯度为0,模型无法进一步更新参数,因此模型训练容易陷入马鞍面中不再更新。 而余弦退火学习率可以很好的改善这个问题,这个是Pytorch官方的介绍。 但是官方的介绍里只有公
🐂🐸🐂🐸
https://peterli.club/2022/%5B%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%5D%E4%BD%99%E5%BC%A6%E9%80%80%E7%81%AB%E5%AD%A6%E4%B9%A0%E7%8E%87/
模型训练Trick背景:深层神经网络难训练是因为学习过程容易陷入到马鞍面中,即在坡面上,一部分点是上升的,一部分点是下降的,如图在z轴上是最小值,而在x轴上是最大值。马鞍面上损失对参数的一阶导数为0,二阶导数的正负值不相同,由于梯度为0,模型无法进一步更新参数,因此模型训练容易陷入马鞍面中不再更新。 而余弦退火学习率可以很好的改善这个问题,这个是Pytorch官方的介绍。 但是官方的介绍里只有公