wzzzd / lm_ner

基于Pytorch的命名实体识别框架,支持LSTM+CRF、Bert+CRF、RoBerta+CRF等框架
75 stars 18 forks source link

大佬,有没有考虑写个Electra的NER #2

Open FreeRotate opened 2 years ago

FreeRotate commented 2 years ago

还有一个就是,英文的很多单词在经过BertTokenizer的时候被编码成了[UNK],导致很多单词学习不到,这有什么好的解决办法吗?

FreeRotate commented 2 years ago

我把评价指标函数改为了seqeval模块的,F1效果在0.82左右

wzzzd commented 2 years ago

还有一个就是,英文的很多单词在经过BertTokenizer的时候被编码成了[UNK],导致很多单词学习不到,这有什么好的解决办法吗?

哈哈,可以参考这个帖子,两个方法:一、替换词表中的[unused],但是[unused]的空位不多。二、修改bert的token embedding,给新词一个随机初始化的权重。 参考:https://zhuanlan.zhihu.com/p/391814780

wzzzd commented 2 years ago

加ELECTRA其实很简单,跟ber类似,我在另外一个文本分类项目里有加入过,可以参考一下:https://github.com/wzzzd/text_classifier_pytorch

FreeRotate commented 2 years ago

加ELECTRA其实很简单,跟ber类似,我在另外一个文本分类项目里有加入过,可以参考一下:https://github.com/wzzzd/text_classifier_pytorch

哈哈哈哈,我就是参考你之前那个文本分类,自己改的NER,也改了Config、Tokenizer、Model这些Electra和BERT差异的东西,但是实验效果没用BERT好,可能是我不会用

wzzzd commented 2 years ago

加ELECTRA其实很简单,跟ber类似,我在另外一个文本分类项目里有加入过,可以参考一下:https://github.com/wzzzd/text_classifier_pytorch

哈哈哈哈,我就是参考你之前那个文本分类,自己改的NER,也改了Config、Tokenizer、Model这些Electra和BERT差异的东西,但是实验效果没用BERT好,可能是我不会用

我在文本分类里面的实验效果也不咋地,中文的ELECTRA对比BERT,确实也没啥优势