w2dp / ik-analyzer

Automatically exported from code.google.com/p/ik-analyzer
0 stars 0 forks source link

phrase search 问题 #87

Closed GoogleCodeExporter closed 8 years ago

GoogleCodeExporter commented 8 years ago
version 2012_u5, 用最小粒度index 的文字如下:
因此中文分词的效果直接影响中文检索和自然语言处理的准��
�性

1.如果phrase搜索 "效果直接",
用luke察看index的tokenized部分: 效果, 直接影响, 直接
query部分: "效果 直接", 得不到结果

2.如果phrase搜索 "处理的准确性",
用luke察看index的tokenized部分:处理, 的, 准确性, 准确, 性
query部分: "处理 的 准确性 准确 性", OK 得到结果

3.如果phrase搜索 "处理的准确"
用luke察看index的tokenized部分:处理, 的, 准确性, 准确, 性 
query部分:"处理 的 准确", 得不到结果

请问有什么办法解决么?
谢谢!

Original issue reported on code.google.com by simonwkc...@gmail.com on 23 Oct 2012 at 4:28

GoogleCodeExporter commented 8 years ago
这个不是分词器问题,谢谢!
请研究lucene搜索这块的内容,说来话长了

Original comment by linliang...@gmail.com on 24 Oct 2012 at 6:34

GoogleCodeExporter commented 8 years ago
你好,
谢谢你的回复。
我也觉得不是分词器的问题,应该是queryparser中处理phrase的问
题。
不过我觉得使用分词器的人都会遇到这种问题的(同一个posit
ion切出多于一个词)。
请问能否简单提示我,怎么处理好点?
谢谢

Original comment by simonwkc...@gmail.com on 24 Oct 2012 at 7:13