tenlee2012 / elasticsearch-analysis-hao

一个非常hao用的elasticsearch(es)中文分词器插件
Apache License 2.0
230 stars 29 forks source link

希望增加命名实体识别和新词发现功能 #26

Closed qbit-git closed 2 years ago

qbit-git commented 2 years ago

人名“乔大新”会被分词为 3 个单字

tenlee2012 commented 2 years ago

Hanlp支持命名实体识别,但是也有缺陷。在文本不同的情况下,长文本,短文本,上下文都会影响分词结果,从而导致分词不稳定,还是建议放到自己的词库里面。 比如:https://hanlp.hankcs.com/?sentence=%E4%B9%94%E5%A4%A7%E6%96%B0%E9%97%BB%E4%BA%86%E4%B8%80%E4%B8%8B

https://hanlp.hankcs.com/?sentence=%E4%B9%94%E5%A4%A7%E6%96%B0%E9%95%BF%E5%BE%97%E7%9C%9F%E5%B8%85

qbit-git commented 2 years ago

知道词典会比推断要准确,主要我的应用场景词典太大了,现在光中国扩展词就有上千万。 之前用的 IK,不支持英文词组,把英文扩展词加上至少得翻倍。 如果有基本的命名实体识别和新词发现功能,可以减少一些词表加载和使用的压力。