请问在用K-BERT做NER任务时为何舍弃了CRF层？是因为K-BERT多分类结果就已经足够很好了吗？

autoliuweijie / K-BERT

Source code of K-BERT (AAAI2020)

951 stars 213 forks source link

Closed Finley1991 closed 4 years ago

autoliuweijie commented 4 years ago

对于BERT/K-BERT，对于此类较深的模型，我们发现其隐藏层之间的状态就可以学会到Tag之间的转移概率。在实验中，我们发现仅用Softmax就能达到和CRF一样的效果，且效率更高。CRF对每个Token无法并行处理，且不易放入GPU中。

以上只是个人的实验和分析，不一定对，仅供参考。