为什么我给的简单句子，大部分都提取不出三元组，比如图中的例子。 - Githubissues

lemonhu / open-entity-relation-extraction

Knowledge triples extraction and knowledge base construction based on dependency syntax for open domain text.

MIT License

527 stars 122 forks source link

为什么我给的简单句子，大部分都提取不出三元组，比如图中的例子。 #9

Open XuZhen001 opened 5 years ago

XuZhen001 commented 5 years ago

lemonhu commented 5 years ago

目前只能保证7种DSNF范式，而且这个前提是依存句法正确得到解析。

XuZhen001 commented 5 years ago

这个跟词典有关系吗，resource里面只提供了法律方面的词典，加个通用词典效果会好一点吗？

XuZhen001 commented 5 years ago

这个为什么都提不了呢，这个不是标准的“n-v-n”结构吗？谢谢解答

lemonhu commented 5 years ago

添加用户词典，只是有助于分词这一步。

建立关系的候选实体集合为{'ns', 'ni', 'nh', 'nz', 'j'}，可见entity_combine.py。

XuZhen001 commented 5 years ago

好的，非常感谢，那么你觉得怎么改进呢，比如可以识别更多句法什么的，要大致怎么改呢？

lemonhu commented 5 years ago

这份工作的贡献就是基于依存句法制定抽取范式，我认为可以从以下两个方面提高：

制定更多的抽取范式，而范式的制定需要较深的语言学知识，当然规则的复杂性可能会随之增加。
实际测试中，长句子的依存句法解析依然比较困难，可以尝试解决长句子的依存解析不准的问题。

XuZhen001 commented 5 years ago

好的，非常感谢

sssdjj commented 5 years ago

用自己训练的命名实体识别+结巴分词能优化很多大准确率，谢谢作者的贡献

Bernard-Yang commented 4 years ago

用自己训练的命名实体识别+结巴分词能优化很多大准确率，谢谢作者的贡献

您好，可以请教下具体怎么改进的吗

tianyunzhe commented 4 years ago

用自己训练的命名实体识别+结巴分词能优化很多大准确率，谢谢作者的贡献

是嘛，我目前从分词，词性标注，命名实体识别，依存分析还是清一色的LTP。

onion0925 commented 2 years ago

用自己训练的命名实体识别+结巴分词能优化很多大准确率，谢谢作者的贡献

您好，想问一下怎样可以训练自己的数据。