hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.99k stars 10.18k forks source link

人名识别对姓“张”识别不太准确 #1798

Closed watsonwuh closed 1 year ago

watsonwuh commented 1 year ago

Describe the bug 抽取了一些短语发现张特别容易没识别出来。 如下是具体的例子 张先生对接城西 分词: [张先生/nz, 对接/v, 城西/d] 张先生开封 分词: [张先生/nz, 开封/ns] 张阿姨 分词: [张/q, 阿姨/n]

Code to reproduce the issue Provide a reproducible test case that is the bare minimum necessary to generate the problem.

        List<Term> list = segment.seg(str);
        log.info("##{} 分词: {}", str, ArrayUtils.toString(list));
        CoreStopWordDictionary.apply(list);

Describe the current behavior 很多识别出来

Expected behavior 张先生 识别出 张 nr,或者 张先生 nr

System information

Other info / logs

hankcs commented 1 year ago

1.x已进入维护状态,除恶性bug外不更新。请迁移至2.x:https://hanlp.hankcs.com/demos/pos.html?text=张先生对接城西张阿姨