hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.97k stars 10.18k forks source link

jar包中的CustomDictionary.txt和data-for-1.7.5.zip中的CustomDictionary.txt不一致 #1921

Closed zhujiawen12345 closed 2 weeks ago

zhujiawen12345 commented 2 weeks ago

Describe the bug jar包中的CustomDictionary.txt和data-for-1.7.5.zip中的CustomDictionary.txt不一致

Code to reproduce the issue

        HanLP.Config.enableDebug();
        String text = "血洗天安门广场";
        System.out.println(HanLP.segment(text));
        CoreDictionary.Attribute attribute = CustomDictionary.get("天安门广场");
        System.out.println(attribute);

Describe the current behavior 对‘血洗天安门广场’进行分词,得到结果是[血洗/v, 天安门广场/nz],经debug发现是自定义词典中存在‘天安门广场 nz 36’,这里为啥jar包中的CustomDictionary.txt和data-for-1.7.5.zip中的CustomDictionary.txt不一致?

Expected behavior 预期分词结果:[血洗/v, 天安门/ns, 广场/n]

同时我对比了演示地址的分词结果: image

System information

Other info / logs 粗分词网: 0:[ ] 1:[血, 血洗] 2:[洗] 3:[天, 天安, 天安门] 4:[安] 5:[门] 6:[广, 广场] 7:[场] 8:[ ]

粗分结果[血洗/v, 天安门广场/nz]

人名角色观察:[ K 1 A 1 ][血洗 A 20833310 ][天安门广场 A 20833310 ][ K 1 A 1 ] 人名角色标注:[ /K ,血洗/A ,天安门广场/A , /A] [血洗/v, 天安门广场/nz]

hankcs commented 2 weeks ago

设计上没有commitment去让portable的数据与非portable的一模一样。

zhujiawen12345 commented 2 weeks ago

我看了portal分支源码中的数据跟jar包中的数据也不一致, portal分支的CustomDictionary.txt中没有‘天安门广场’这个词,实际jar分词结果显示CustomDictionary.txt中存在这个词