希望增加命名实体识别和新词发现功能

tenlee2012 / elasticsearch-analysis-hao

一个非常hao用的elasticsearch(es)中文分词器插件

Apache License 2.0

230 stars 29 forks source link

Closed qbit-git closed 2 years ago

qbit-git commented 2 years ago

人名“乔大新”会被分词为 3 个单字

tenlee2012 commented 2 years ago

Hanlp支持命名实体识别，但是也有缺陷。在文本不同的情况下，长文本，短文本，上下文都会影响分词结果，从而导致分词不稳定，还是建议放到自己的词库里面。比如：https://hanlp.hankcs.com/?sentence=%E4%B9%94%E5%A4%A7%E6%96%B0%E9%97%BB%E4%BA%86%E4%B8%80%E4%B8%8B

qbit-git commented 2 years ago

知道词典会比推断要准确，主要我的应用场景词典太大了，现在光中国扩展词就有上千万。之前用的 IK，不支持英文词组，把英文扩展词加上至少得翻倍。如果有基本的命名实体识别和新词发现功能，可以减少一些词表加载和使用的压力。