大佬，有没有考虑写个Electra的NER

wzzzd / lm_ner

基于Pytorch的命名实体识别框架，支持LSTM+CRF、Bert+CRF、RoBerta+CRF等框架

75 stars 18 forks source link

大佬，有没有考虑写个Electra的NER #2

Open FreeRotate opened 2 years ago

FreeRotate commented 2 years ago

还有一个就是，英文的很多单词在经过BertTokenizer的时候被编码成了[UNK]，导致很多单词学习不到，这有什么好的解决办法吗？

FreeRotate commented 2 years ago

我把评价指标函数改为了seqeval模块的，F1效果在0.82左右

wzzzd commented 2 years ago

还有一个就是，英文的很多单词在经过BertTokenizer的时候被编码成了[UNK]，导致很多单词学习不到，这有什么好的解决办法吗？

哈哈，可以参考这个帖子，两个方法：一、替换词表中的[unused]，但是[unused]的空位不多。二、修改bert的token embedding，给新词一个随机初始化的权重。参考：https://zhuanlan.zhihu.com/p/391814780

wzzzd commented 2 years ago

加ELECTRA其实很简单，跟ber类似，我在另外一个文本分类项目里有加入过，可以参考一下：https://github.com/wzzzd/text_classifier_pytorch

FreeRotate commented 2 years ago

加ELECTRA其实很简单，跟ber类似，我在另外一个文本分类项目里有加入过，可以参考一下：https://github.com/wzzzd/text_classifier_pytorch

哈哈哈哈，我就是参考你之前那个文本分类，自己改的NER，也改了Config、Tokenizer、Model这些Electra和BERT差异的东西，但是实验效果没用BERT好，可能是我不会用

wzzzd commented 2 years ago

加ELECTRA其实很简单，跟ber类似，我在另外一个文本分类项目里有加入过，可以参考一下：https://github.com/wzzzd/text_classifier_pytorch

哈哈哈哈，我就是参考你之前那个文本分类，自己改的NER，也改了Config、Tokenizer、Model这些Electra和BERT差异的东西，但是实验效果没用BERT好，可能是我不会用

我在文本分类里面的实验效果也不咋地，中文的ELECTRA对比BERT，确实也没啥优势