autoliuweijie / K-BERT

Source code of K-BERT (AAAI2020)
https://ojs.aaai.org//index.php/AAAI/article/view/5681
951 stars 213 forks source link

请问在用K-BERT做NER任务时为何舍弃了CRF层?是因为K-BERT多分类结果就已经足够很好了吗? #10

Closed Finley1991 closed 4 years ago

autoliuweijie commented 4 years ago

对于BERT/K-BERT,对于此类较深的模型,我们发现其隐藏层之间的状态就可以学会到Tag之间的转移概率。在实验中,我们发现仅用Softmax就能达到和CRF一样的效果,且效率更高。CRF对每个Token无法并行处理,且不易放入GPU中。

以上只是个人的实验和分析,不一定对,仅供参考。