Closed GoogleCodeExporter closed 9 years ago
没办法:lucene的QueryParser认为你输入的“小宝康熙”是一个短
语,它只会找那些包含"小宝康熙"文字
的文档,1、这个文档必须同时包含"小宝"和"康熙",2、他们��
�须是紧唉的。
这个是QueryParser的要求。我也认为这是良好的。
如果你用程序分词后再用空格隔开,这也是一种需求。不过��
�照做法有可能:只会检索出只含小宝获康熙的文
档,并且康熙没有紧挨着小宝的文档也算是命中。
结论:不管使用QueryParser设定的含义或者我们自己设定的自己
要求的含义,其实和paoding,甚至说和分
词方案是没有关系的,paoding无能为力;但paoding也不会/不应��
�限制你按照自己的意思做事。
:)
Original comment by qieqie.wang
on 22 Oct 2007 at 6:41
拿英文的和中文进行类比,我想"google
map"不会被lucene理解为google紧接map而是先分别用google和
map得到hits之后再做并和交。
所以我认为中文如果和英文搜索设计理念一致,也不应该理��
�为"小宝康熙"整个为一个短语,而不是两个独立
的词,所以我觉得似乎和原来的lucene的QueryParser的设计理念不
同。
不过中文本身就是很复杂的东西,是切是不切,怎么切都是��
�个问题,搜索的时候是整体当作一个短语还是理
解为几个短语来进行搜索,这个似乎不丹丹是技术,而且是��
�化方面的东西,整个的不切也确实保留了用户的
灵活性,不过我觉得似乎还是应该说明一下这个设计
Original comment by huang.li...@gmail.com
on 22 Oct 2007 at 7:23
我仍然觉得还是保持一致的好,对于短语,带上引号就可以��
�切,所以没必要默认认为不切。
Original comment by huang.li...@gmail.com
on 22 Oct 2007 at 7:25
1、首先纠正一个错误:“小宝康熙”一定会被切的,短语查�
��也是需要切词的。
2、但是对切的结果,不过的Parser可以有不同的理解,按照Luce
ne提供的QueryParserd的理解,就是原本
紧临的字符,它认为是用户要求目标结果要求包含近邻的那��
�字符串,所以他那样处理。
3、你所说的问题,本质是QueryParser的问题。可以这样说。如��
�这个需求很强烈,我们就必须放弃使用
Lucene自带的QueryParser,而自己开发一个符合你说的那种要求的
QueryParser来处理,这种
QueryParser我们可暂且可以命名为CJKQueryParser。
Original comment by qieqie.wang
on 22 Oct 2007 at 7:31
有些词比如"K歌之王","A片",我直接添加到t-base.dic无法起作�
��,这样的需求该如何呢?
Original comment by huang.li...@gmail.com
on 22 Oct 2007 at 8:32
明天发布2.0.4-alpha2版。
倒时把这些lantin+cjk的词加在x-for-combinatorics.dic即可。
Original comment by qieqie.wang
on 22 Oct 2007 at 8:37
赞!!!!!
帮大忙了!!!
Original comment by huang.li...@gmail.com
on 22 Oct 2007 at 8:54
Original comment by qieqie.wang
on 17 Mar 2008 at 3:02
qieqie 你好,我碰到了类似的问题.
搜索标题:北京三年内将实现高考考场电子监控
用"北京
高考"能够搜索到.用"北京","高考"单独搜索都可以搜索到这个�
��果.但是如果中间不加空格.用"北
京高考"去搜索.就搜索不到结果了.
我用PaodingAnalyzer.tokenStream()去取分词后的termText(),分成了"北京
","高考"两个词.切分的是
没问题的.但是却搜索不到结果.
我想对这种问题这样处理
将用户输入的短语切分以后理解为AND的关系
北京 高考 = 北京 OR 高考
北京高考 = 北京 AND 高考
北京高考 监控 = (北京 AND 高考) OR 监控
这样出来的结果应该是比较合理.
Original comment by sar...@gmail.com
on 22 May 2008 at 4:17
这和和分词没有关系。
请充分了解Lucene的QueryParser的用法
Original comment by qieqie.wang
on 22 May 2008 at 4:21
还有一个问题,就是"笔记本"在分词的时候,分成了"笔记"和"笔�
��本"两个词.建立索引以后搜索"笔记本"搜索
不到.这样的问题是怎么产生的呢?
Original comment by sar...@gmail.com
on 2 Jul 2008 at 6:28
"笔记本"在分词的时候,分成了"笔记"和"笔记本"两个词.建立索
引以后搜索"笔记本"搜索
不到.这样的问题是怎么产生的呢?
---
不信
Original comment by qieqie.wang
on 2 Jul 2008 at 10:42
Original issue reported on code.google.com by
huang.li...@gmail.com
on 22 Oct 2007 at 6:04