z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch
922 stars 229 forks source link

滑动平均swa #16

Closed topDreamer closed 3 years ago

topDreamer commented 3 years ago

Great work! 能否简单介绍下“swa”的作用呢?另外请教下项目里面使用“swa”是否有明显的效果提升?

z814081807 commented 3 years ago

Great work! 能否简单介绍下“swa”的作用呢?另外请教下项目里面使用“swa”是否有明显的效果提升?

滑动参数平均:加权平均最后几个epoch模型的权重,得到更加平滑和表现更优的模型. swa用的好的话是有提升的,验证集上效果会是最好的。