Open BrambleXu opened 5 years ago
一句话总结:
通过控制Adam的自适应率,来控制learning rate的变化,为了能让模型更好地收敛。虽然效果没有超过SGD,但是对于初始学习率有鲁棒性。这样即使一开始设置的学习率没那么讲究,也能保证最终训练的效果不会太差。
资源:
论文信息:
笔记:
模型图:
结果:
接下来要看的论文:
一句话总结:
通过控制Adam的自适应率,来控制learning rate的变化,为了能让模型更好地收敛。虽然效果没有超过SGD,但是对于初始学习率有鲁棒性。这样即使一开始设置的学习率没那么讲究,也能保证最终训练的效果不会太差。
资源:
论文信息:
笔记:
模型图:
结果:
接下来要看的论文: