Closed Finley1991 closed 4 years ago
对于BERT/K-BERT,对于此类较深的模型,我们发现其隐藏层之间的状态就可以学会到Tag之间的转移概率。在实验中,我们发现仅用Softmax就能达到和CRF一样的效果,且效率更高。CRF对每个Token无法并行处理,且不易放入GPU中。
以上只是个人的实验和分析,不一定对,仅供参考。
对于BERT/K-BERT,对于此类较深的模型,我们发现其隐藏层之间的状态就可以学会到Tag之间的转移概率。在实验中,我们发现仅用Softmax就能达到和CRF一样的效果,且效率更高。CRF对每个Token无法并行处理,且不易放入GPU中。
以上只是个人的实验和分析,不一定对,仅供参考。