调参疑问 - Githubissues

LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer

1k stars 178 forks source link

调参疑问 #78

Closed mx8435 closed 3 years ago

mx8435 commented 3 years ago

您好，我阅读了V1源码，使用默认参数，发现有几个tricks不明白的，麻烦帮忙解答下：

为啥默认的optimizer是SGD，而不用bert训练用的AdamW? 两种优化器效果上有什么区别吗？
为何前20个epochs要freeze bert，这个会对最终效果有什么影响？
学习率怎么没用bert默认的linear_schedule_with_warmup
去掉Transformer_Encoder、预训练lattice和bigram embedding效果分别会下降多少，论文中没找到。