Closed topDreamer closed 3 years ago
Great work! 能否简单介绍下“swa”的作用呢?另外请教下项目里面使用“swa”是否有明显的效果提升?
滑动参数平均:加权平均最后几个epoch模型的权重,得到更加平滑和表现更优的模型. swa用的好的话是有提升的,验证集上效果会是最好的。
Great work! 能否简单介绍下“swa”的作用呢?另外请教下项目里面使用“swa”是否有明显的效果提升?