Closed wjjwsl closed 5 years ago
可能人民日报的语料太老了,不适合近期的人名。。。 目前 NER 数据集只有这个,如果你有别的开源数据集可以试试。
嗯,我还找到了微软亚研院MSRA的命名实体识别语料:https://github.com/supercoderhawk/DeepNLP/blob/master/corpus/msr_ner_training.utf8 不过格式不一样还要再调整~_~
@wjjwsl 0.2.4 版本按照 BERT 论文,修改为使用最后四个隐藏层的输出作为特征,目前效果好于之前版本,可以尝试一下。
你好,我这边用BERT做NER,直接fit训练的时候loss变成负的了,请问这种情况正常吗?数据格式类似于这种: ['风', '范', '股', '份', '前', '任', '董', '事', '因', '内', '幕', '交', '易', '受', '到', '证', '监', '会', '处', '罚'] ['B-15', 'I-15', 'I-15', 'I-15', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
你好,我这边用BERT做NER,直接fit训练的时候loss变成负的了,请问这种情况正常吗?数据格式类似于这种: ['风', '范', '股', '份', '前', '任', '董', '事', '因', '内', '幕', '交', '易', '受', '到', '证', '监', '会', '处', '罚'] ['B-15', 'I-15', 'I-15', 'I-15', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
数据没问题,这个问题我也遇到了,是我用 CRF 层的问题。但不影响结果,所以暂时忽略即可。 可以参考:https://github.com/keras-team/keras-contrib/issues/253
我试了0.2.4的版本,效果好了非常多!感谢 @BrikerMan
你好,我这边用BERT做NER,直接fit训练的时候loss变成负的了,请问这种情况正常吗?数据格式类似于这种: ['风', '范', '股', '份', '前', '任', '董', '事', '因', '内', '幕', '交', '易', '受', '到', '证', '监', '会', '处', '罚'] ['B-15', 'I-15', 'I-15', 'I-15', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'] 请问一下这个这么做到的,我好像修改不了B-B-LOC,B-ORG
你好,我这边用BERT做NER,直接fit训练的时候loss变成负的了,请问这种情况正常吗?数据格式类似于这种: ['风', '范', '股', '份', '前', '任', '董', '事', '因', '内', '幕', '交', '易', '受', '到', '证', '监', '会', '处', '罚'] ['B-15', 'I-15', 'I-15', 'I-15', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
数据没问题,这个问题我也遇到了,是我用 CRF 层的问题。但不影响结果,所以暂时忽略即可。 可以参考:keras-team/keras-contrib#253 请问下主要是什么原因
我选择了版本0.2.1,epoch是100,最后evaluate的结果如下: precision recall f1-score support
micro avg 0.7144 0.6366 0.6733 5292 macro avg 0.7174 0.6366 0.6733 5292 但是我发现它基本无法识别人名,而且某些语句我用最新版本train出来的model可以正确识别,它却识别不了。例如: model3.predict(list('国家主席的名字是习近平')) ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'] 请问这是因为人民日报那个训练集太小了么?corpus里面有其他可以做中文命名实体识别的库么?多谢!