hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.66k stars 10.06k forks source link

为什么在机构名识别代码中对nis词性hard code了K, 1000和D, 1000 #137

Closed xunyuw closed 8 years ago

xunyuw commented 8 years ago

为什么在机构名识别代码中对nis词性hard code了K, 1000和D, 1000, 导致分词有问题 "2007年1月9日,阿里巴巴集团在上海宣布旗下公司阿里软件正式成立。", N-最短分词:[2007年/t, 1月/t, 9日/t, ,/w, 阿里巴巴集团/nt, 在/p, 上海/ns, 宣布/v, 旗下/d, 公司阿里软件/nt, 正式成立/v, 。/w] 最短路分词:[2007/m, 年/qt, 1/m, 月/n, 9/m, 日/b, ,/w, 阿里巴巴集团/nt, 在/p, 上海/ns, 宣布/v, 旗下/d, 公司阿里软件/nt, 正式成立/v, 。/w]

hankcs commented 8 years ago

感谢反馈。

  1. 就像注释中说的一样,想构成更长的机构名,比如某某公司某某分公司
  2. 问题应该是DGD这个模式串带来的。
hankcs commented 8 years ago

[阿里巴巴集团/nt, 在/p, 上海/ns, 宣布/v, 旗下/d, 公司/nis, 阿里软件/nt, 正式/ad, 成立/vi]