thunlp / NRE

Neural Relation Extraction, including CNN, PCNN, CNN+ATT, PCNN+ATT
MIT License
810 stars 309 forks source link

关于数据的问题 #16

Open twjiang opened 6 years ago

twjiang commented 6 years ago

您论文里提到训练集有522611句子、测试集有172448句子。但在您发布的data.zip文件中测试集行数为172448,但句子去重后为61707;训练集行数为570088,句子去重后为368099,即使句子+实体对+关系联合再去重后也是510415,而非522611。

请问是哪里出了问题?您论文中的“句子数量”指的是什么?

Mrlyk423 commented 6 years ago

你好,句子个数即为数据个数,如测试集行数为172448,即有172448个句子。另外,训练时我将和测试集中entity pair重复的部分去掉了得到的522611个训练样例。

twjiang commented 6 years ago

好的,了解了,感谢! 但是为什么会存在和测试集数据重复的情况,hold-out的方法应该使得测试集与训练集都是覆盖没有交集的entity-pair? 另外,训练集中为何存在完全相同的行(实体对、关系、句子都完全相同)?即自身重复的数据。 完全去重后感觉训练集并不能达到522611。 不知是我哪里理解错了?

Mrlyk423 commented 6 years ago

关于完全相同的行不太清楚,我是根据NYT10那份数据直接处理得到。

weilonghu commented 6 years ago

请问可以公布一下处理数据的源码吗?

karlhugle commented 6 years ago

训练时我将和测试集中entity pair重复的部分去掉了得到的522611个训练样例。

Can you plese share the processed data

many thanks