hankcs / hanlp-lucene-plugin

HanLP中文分词Lucene插件,支持包括Solr在内的基于Lucene的系统
http://www.hankcs.com/nlp/segment/full-text-retrieval-solr-integrated-hanlp-chinese-word-segmentation.html
Apache License 2.0
296 stars 99 forks source link

请问是否能提供一个类似于stopWordDictionaryPath 的配置,来配置同义词 #33

Open ekoz opened 6 years ago

ekoz commented 6 years ago

是否能提供一个类似于stopWordDictionaryPath 的配置,来配置同义词 synonymWordDictionaryPath,这样可以不用 solr 自己的同义词

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
kevindragon commented 5 years ago

solr提供的同义词功能应该可以满足大部分的需求,@ekoz 你的需求是怎么样的?

ekoz commented 5 years ago

solr提供的同义词功能应该可以满足大部分的需求,@ekoz 你的需求是怎么样的?

期望同义词和停顿词都统一由 hanlp 插件提供,如果只提供了停顿词插件,同义词由solr提供,这样大家可能还是会统一使用solr的。真正使用的时候,词类是会提供界面维护的,会做部分增删改查功能。

hankcs commented 5 years ago

感谢反馈,我理解大家需要各种功能的心情。但个人精力有限,无法在周边业务逻辑上分配那么多精力,这点还需要社区的帮助。

fishfree commented 1 month ago

+1 pls. 因为我发现solr自带的近义词格式只能是一行2个,否则会有很多问题,而hanlp可以一行多个同义词。 而仅仅依靠hanlp.properties里取消注释CoreSynonymDictionaryDictionaryPath似乎不起作用(CustomDictionaryPath等等似乎都不起作用)。