关系抽取数据处理问题

taishan1994 / pytorch_triple_extraction

基于pytorch的中文三元组提取（命名实体识别+关系抽取）

330 stars 41 forks source link

作者您好！作为一个知识图谱初学者，非常感谢您这项工作，让我获益颇多。在进行关系抽取步骤时，我注意到您将句子中的每个实体两两组合，若不是同一个三元组则将其标注为未知，这样的预处理为模型输入带来了很多标签为“未知”的数据，同时很大的增大了数据量。请问若仅将原始数据中的三元组预处理，而不新增“未知”的关系类型，这与您现在采用方法相比，会对模型结果带来很大改变吗？

会带来一些影响的，因为你并不知道哪些实体之间一定存在关系，对于不存在关系的实体对，会强行给它分配关系，这样就不对。可以考虑减少生成未知关系类的数量。

taishan1994 / pytorch_triple_extraction

关系抽取数据处理问题 #27