Open GoogleCodeExporter opened 8 years ago
嗯,你用的lucene?
很大程度上,这个结果取决于索引的管理器,和分词的关系��
�大。一般的倒排文档中会考虑检索词条间的距离,例如:“�
��育问题”,很明显第一条“教育”和“问题”距离为0,检��
�算出的相关度应该更高。但是,事实上,确如你说的。
(我对lucene不熟悉,应该要具备这个功能的,还是建立索引的�
��候忘记什么配置了?)
当然:我们也可以通过分词器来影响结果:如果你将“教育��
�题”作为一个整词切分,那么第一条肯定排在前面,提高精�
��,但是降低了命中率,第二条是不会被检索的,所以我会在
下个版本中加入:复杂中文的二次切分。
这样:“教育问题”会被切分成:教育问题/ 教育/ 问题
通常的全文索引管理器都会将第一条排在前面。
Best
--lionsoul
Original comment by chenxin6...@gmail.com
on 12 Jun 2014 at 2:11
好的,谢谢。还有一个问题想问一下,如果我想用拼音搜索��
�怎么做?目前貌似打开jcseg.loadpinyin=0这个设置会报错的org.apa
che.lucene.search.highlight.InvalidTokenOffsetsException: Token guanxin exceeds
length of provided text sized 21
Original comment by Nilson....@gmail.com
on 18 Jun 2014 at 1:20
Original issue reported on code.google.com by
Nilson....@gmail.com
on 10 Jun 2014 at 2:26