LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer
1k stars 178 forks source link

调参疑问 #78

Closed mx8435 closed 3 years ago

mx8435 commented 3 years ago

您好,我阅读了V1源码,使用默认参数,发现有几个tricks不明白的,麻烦帮忙解答下:

  1. 为啥默认的optimizer是SGD,而不用bert训练用的AdamW? 两种优化器效果上有什么区别吗?
  2. 为何前20个epochs要freeze bert,这个会对最终效果有什么影响?
  3. 学习率怎么没用bert默认的linear_schedule_with_warmup
  4. 去掉Transformer_Encoder、预训练lattice和bigram embedding效果分别会下降多少,论文中没找到。