issues
search
LeeSureman
/
Flat-Lattice-Transformer
code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer
1k
stars
178
forks
source link
调参疑问
#78
Closed
mx8435
closed
3 years ago
mx8435
commented
3 years ago
您好,我阅读了V1源码,使用默认参数,发现有几个tricks不明白的,麻烦帮忙解答下:
为啥默认的optimizer是SGD,而不用bert训练用的AdamW? 两种优化器效果上有什么区别吗?
为何前20个epochs要freeze bert,这个会对最终效果有什么影响?
学习率怎么没用bert默认的linear_schedule_with_warmup
去掉Transformer_Encoder、预训练lattice和bigram embedding效果分别会下降多少,论文中没找到。
您好,我阅读了V1源码,使用默认参数,发现有几个tricks不明白的,麻烦帮忙解答下: