thunlp / JointNRE

Joint Neural Relation Extraction with Text and KGs
MIT License
187 stars 36 forks source link

关于KG目录下的FB60K的问题 #11

Closed hao920293897 closed 5 years ago

hao920293897 commented 5 years ago

为什么统计出来的实体个数是37561,不应该是69512嘛

THUCSTHanxu13 commented 5 years ago

60000多是文本中的实体和图谱中的实体总和,有些实体并不在kg中而在text中

THUCSTHanxu13 commented 5 years ago

python initial.py 之后entity2id.txt里是所有实体的编号

THUCSTHanxu13 commented 5 years ago

NYT-10这个数据集合以及FB60K这个外接的kg是比较古老的数据,和最近的图谱相比,里面缺少了一些三元组

hao920293897 commented 5 years ago

文本中的实体和图谱中的实体总和确实是69513,因为是看到论文里讲FB60K是69512个实体,文本语料是63696个实体,所以才有点疑惑。Thanks♪(・ω・)ノ

THUCSTHanxu13 commented 5 years ago

可能是我没写清楚 : ) 有问题再反馈吧 RE上用的NYT-10这个数据集还蛮鬼畜的。。。