duterscmy / ccks2019-ckbqa-4th-codes

中文知识库问答代码,CCKS2019 CKBQA评测第四名解决方案
476 stars 91 forks source link

建立分词词典为什么只统计三元组的subject #16

Closed 1234560o closed 4 years ago

1234560o commented 4 years ago

作者,您好,在GetSegmentDic.py中建立segment_dic.txt文件的时候,只选择了知识库中所有三元组的subject,为什么不用object呢?2018年第二名也是采用这种方式,但是一直没完全想明白,比如下面这个Just do it在知识库中没有subject不就不能识别出该实体或属性呢?:

q982:公司口号为"just do it "的运动品牌的著名签约明星都有谁? select ?y where { ?x <公司口号> "Just do it". ?x <签约明星> ?y. } "詹姆斯" "C罗" "乔丹" "科比"

duterscmy commented 4 years ago

这个字典我是完全follow他们的做法,所以也不清楚为啥。但是这个做法对你举的这个例子是没有影响的,因为分词词典本质上全是mention,分词结果是为了先得到mention,再通过mention得到候选的实体。 像这个例子里的主语是属性值,属性值我们是写了些正则式、倒排索引等规则来单独抽的。