chenlb / mmseg4j-solr

mmseg4j for lucene or solr analyzer
Apache License 2.0
398 stars 141 forks source link

会有自定义词库不生效情况?[UTF8 的 bom 问题] #13

Closed flyingdew closed 9 years ago

flyingdew commented 9 years ago

solr 4.10.4 mmseg4j 2.2.0 自定义词库“女式”, "parsedquery_toString": "text:女 text:式"

但是其他自定义词如“女款”却可以 另外,我把jar包里的词库去掉,放到dicPath下,加入"女式",却又生效,折腾好长时间了。。 另,拿最新源码跑单元测试好像是正常的。 初接触solr,如有理解错误,见谅

flyingdew commented 9 years ago

BOM问题,真是醉了。。

chenlb commented 9 years ago

词库(强制使用 UTF-8):

https://github.com/chenlb/mmseg4j-from-googlecode 旧的版本的 readme 有说明,呵呵。

flyingdew commented 9 years ago

多谢大神回复,其实我有从您的博客看过文章,这个只能怪自己不谨慎了。词库前面已经加入其它的词,生效了,便想当然的以为不会有问题了。后来又从网上看了几篇文章,都要求词库必须为UTF-8无BOM,才去找工具转了一下。