作者为何没有使用FLAT作为预训练语言模型进行预训练呢？

LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer

1k stars 178 forks source link

Open heshenghuan opened 3 years ago

heshenghuan commented 3 years ago

FLAT模型结构应该可以进行预训练

不过作者好像没有进行这方面的实验，不知为何？

mirrorQAQ commented 3 years ago

同疑惑，Flat 为什么不多层训练，是因为效果不好吗。