hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.97k stars 10.18k forks source link

希望可以增加自定义词典功能,对于分错的词语可以人为纠正。 #1837

Closed haorenyuan7777777 closed 1 year ago

haorenyuan7777777 commented 1 year ago

Describe the feature and the current behavior/state. 目前没有发现存在自定义词典的功能。在一些特定场景中,如:螺栓紧固,会被分词为 螺栓、紧、固。但是在该场景中,我们更希望得到螺栓、紧固。 Will this change the current api? How? 也许需要增加一个add_word()接口去实现该功能。 Who will benefit with this feature? 每一个使用hanlp并希望hanlp能越来越好的人都会获益。 Are you willing to contribute it (Yes/No): 力有不逮 System information

Any other info no

zZZ-github-life commented 1 year ago

有的呀,自定义词典

hankcs commented 1 year ago

https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/tok_stl.ipynb