fourdimensions / ik-analyzer

Automatically exported from code.google.com/p/ik-analyzer
0 stars 0 forks source link

solr4.3 useSmart=false模式下会把词分割成单个字符 #135

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
solr 版本4.3
ik 版本 2012hf1
使用了IKTokenizerFactory接入solr,在useSmart=false模式下会把词分割�
��单个字符,在true下则不会,比如:
-------------------------------------------------------------
   solr 右侧Analysis功能中,Field Value为123,分析结果如下:
HTMLSCF text 123
IKT text        123         1     2   3
    raw_bytes   [31 32 33]  [31] [32] [33]
    start       0           0     1   2
    end         3           1     2   3
    type        ARABIC    CN_WORD CN_WORD CN_WORD
--------------------------------------------------------------
   在索引中也有1,2,3这三个字符,很奇怪false模式下会有这种结果,特别是1,2,3的类型是CN_WORD,简单了解过 IK的源码,CN_WORD类型只有在CJKSegment中匹配成词才会得到,求解决方法。

Original issue reported on code.google.com by whp...@gmail.com on 13 May 2014 at 7:57

GoogleCodeExporter commented 9 years ago
这是我的问题,我接手维护前人的工作,才发现在class文件夹
下有个扩展词库

Original comment by whp...@gmail.com on 14 May 2014 at 1:34