thunlp / OpenKE

An Open-Source Package for Knowledge Embedding (KE)
3.83k stars 985 forks source link

train2id训练数据的建立 #126

Closed muyundefeng closed 5 years ago

muyundefeng commented 5 years ago

请问训练样本中的,train2id.txt中的三元组是怎么建立的,是人工标注,还是通过deepdive关系抽取?

THUCSTHanxu13 commented 5 years ago

已有的数据集合都是部分知识图谱的子集合,比如FB15K是freebase的子集合,WN18是wordnet的子集合,他们内部的格式通常是<头实体编号,关系编号,尾实体编号>,我们的train2id只是将这些图谱自身的离散编号变成了连续的数字编号方便我们的程序读取与处理。entity2id里面存的就是原图谱编号对应连续数字编号的对应表,relation2id是关系的对应表