qq547276542 / Agriculture_KnowledgeGraph

农业知识图谱(AgriKG):农业领域的信息检索,命名实体识别,关系抽取,智能问答,辅助决策
GNU General Public License v3.0
3.99k stars 1.56k forks source link

查询系统中的关系数据来源 #71

Open GaleHuang opened 4 years ago

GaleHuang commented 4 years ago

请问最终查询系统中的三元组数据,来自结构化数据(百科上爬取)的三元组和文本中抽取的三元组的比例大概是多少? 从文本中抽取三元组,首先需要对文本进行命名实体识别,然后从中依次选择一对对命名实体进行关系抽取。由于知识库中的实体可能存在重名/多义问题,并且NER得到的实体名可能是知识库中的实体名的缩写/别称等等,NER得到的实体需要用实体链接链接到知识库中的实体,这一环节的大概思路是什么样的? 另外目前关系抽取技术能得到的三元组的质量(准确度/F1)应该会远低于结构化数据中爬取的,如果将两种途径得到的三元组融合起来,如何确保最终系统的检索质量呢?

CrisJk commented 4 years ago

@GaleHuang

我们将已有的结构化数据与纯文本对齐,得到关系抽取的训练集。这一步只是做简单的字符串匹配,确实会存在噪音问题。实际上这也是远程监督的思想,远程监督必然会带来噪音。我们使用的关系提取算法可以在一定程度上可以缓解训练集噪音问题。由于数据的稀疏性,通过算法预测得到的三元组精度不如众包方式得到的结构化三元组,这也是目前关系抽取算法研究不断推陈出新的原因。因此,最后进入到图谱中的三元组还需要进行人工审核。