buppt / ChineseNER

中文命名实体识别,实体抽取,tensorflow,pytorch,BiLSTM+CRF
1.39k stars 394 forks source link

为什么只保留了含有命名实体的行数据? #13

Closed ArtificialIdoit closed 5 years ago

ArtificialIdoit commented 5 years ago

ChineseNER/data/renMinRiBao/data_renmin_word.py中的85行到88行,为什么会只保留numNotO!=0的linedata?

ArtificialIdoit commented 5 years ago

我倒是有个猜测,但是不太敢确定

ArtificialIdoit commented 5 years ago

是因为负样本太多,所以去掉了无用信息,一种变相的数据增强?

buppt commented 5 years ago

是因为负样本太多,所以去掉了无用信息,一种变相的数据增强?

是的,其实就是把不包含实体的句子从训练集里删掉了。

ArtificialIdoit commented 5 years ago

是因为负样本太多,所以去掉了无用信息,一种变相的数据增强?

是的,其实就是把不包含实体的句子从训练集里删掉了。

好的,谢谢

nuass commented 5 years ago

分享下我的经验,在另一个NER项目里确实发现如果不去负样本,召回率会很低。所以去掉不包含实体的句子是必须的。

ArtificialIdoit commented 5 years ago

分享下我的经验,在另一个NER项目里确实发现如果不去负样本,召回率会很低。所以去掉不包含实体的句子是必须的。

十分感谢,后续有时间我会尝试一下。