what's your Bert pretrained model?

lvjiujin commented 2 years ago

你的Bert的预训练模型用的是什么版本的？bert-base-chinese?还是bert-wwm?还是chinse-roberta-wwm?

rtmaww commented 2 years ago

你好，是bert-base-chinese

lvjiujin commented 2 years ago

你好，是bert-base-chinese

多谢，我看到了，在代码function.py中看到了，我有一个疑问就是如果用tf-idf，来替换词频作为词集向量融合的权重的话，短词的tf-idf是否需要做额外处理呢？如果处理要如何处理呢？

v-mipeng commented 2 years ago

在文中，我们用df对span进行加权，是因为我们认为df可以反映span构成词的概率。从这个角度来讲，我认为使用tf-idf对span进行加权没有太大意义：首先，span在一个句子中的tf通常为1，不具有区分度；其次，idf 是df的逆值，和我们的思想相违背。如果一定要用tf-idf的话建议用1/tf-idf进行加权。另外，如果觉得tf尺度太大的话，可以考虑引入单调函数，如log函数，对tf进行变换后作为span的权重。

v-mipeng / LexiconAugmentedNER

what's your Bert pretrained model? #51