LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer
1k stars 178 forks source link

作者为何没有使用FLAT作为预训练语言模型进行预训练呢? #48

Open heshenghuan opened 3 years ago

heshenghuan commented 3 years ago

FLAT模型结构应该可以进行预训练

不过作者好像没有进行这方面的实验,不知为何?

mirrorQAQ commented 3 years ago

同疑惑,Flat 为什么不多层训练,是因为效果不好吗。