edwardsayer / jcseg

Automatically exported from code.google.com/p/jcseg
0 stars 0 forks source link

匹配精度问题(已解决) #24

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
感谢作者的努力,我在试用的过程中有个关于精度匹配的问��
�
比如下面两句话:
1、教育问题一直是国家最关心的,我们要长抓不懈
2、教育独生子女问题,这是很多家长要关心的问题
那么我在查询“教育问题”的时候应该是第一条匹配度最高��
�显示在最前面,我在试用的时候是第二条显示最前面的,这�
��问题有解决方法吗?

Original issue reported on code.google.com by Nilson....@gmail.com on 10 Jun 2014 at 2:26

GoogleCodeExporter commented 9 years ago
嗯,你用的lucene?

很大程度上,这个结果取决于索引的管理器,和分词的关系��
�大。一般的倒排文档中会考虑检索词条间的距离,例如:“�
��育问题”,很明显第一条“教育”和“问题”距离为0,检��
�算出的相关度应该更高。但是,事实上,确如你说的。
(我对lucene不熟悉,应该要具备这个功能的,还是建立索引的�
��候忘记什么配置了?)

当然:我们也可以通过分词器来影响结果:如果你将“教育��
�题”作为一个整词切分,那么第一条肯定排在前面,提高精�
��,但是降低了命中率,第二条是不会被检索的,所以我会在
下个版本中加入:复杂中文的二次切分。

这样:“教育问题”会被切分成:教育问题/ 教育/ 问题

通常的全文索引管理器都会将第一条排在前面。

Best
--lionsoul

Original comment by chenxin6...@gmail.com on 12 Jun 2014 at 2:11

GoogleCodeExporter commented 9 years ago
好的,谢谢。还有一个问题想问一下,如果我想用拼音搜索��
�怎么做?目前貌似打开jcseg.loadpinyin=0这个设置会报错的org.apa
che.lucene.search.highlight.InvalidTokenOffsetsException: Token guanxin exceeds 
length of provided text sized 21

Original comment by Nilson....@gmail.com on 18 Jun 2014 at 1:20