匹配精度问题（已解决）

GoogleCodeExporter commented 8 years ago

感谢作者的努力，我在试用的过程中有个关于精度匹配的问��
�
比如下面两句话：
1、教育问题一直是国家最关心的,我们要长抓不懈
2、教育独生子女问题,这是很多家长要关心的问题
那么我在查询“教育问题”的时候应该是第一条匹配度最高��
�显示在最前面，我在试用的时候是第二条显示最前面的，这�
��问题有解决方法吗？

Original issue reported on code.google.com by Nilson....@gmail.com on 10 Jun 2014 at 2:26

GoogleCodeExporter commented 8 years ago

嗯，你用的lucene?

很大程度上，这个结果取决于索引的管理器，和分词的关系��
�大。一般的倒排文档中会考虑检索词条间的距离，例如：“�
��育问题”，很明显第一条“教育”和“问题”距离为0，检��
�算出的相关度应该更高。但是，事实上，确如你说的。
(我对lucene不熟悉，应该要具备这个功能的，还是建立索引的�
��候忘记什么配置了？)

当然：我们也可以通过分词器来影响结果：如果你将“教育��
�题”作为一个整词切分，那么第一条肯定排在前面，提高精�
��，但是降低了命中率，第二条是不会被检索的，所以我会在
下个版本中加入：复杂中文的二次切分。

这样：“教育问题”会被切分成：教育问题/ 教育/ 问题

通常的全文索引管理器都会将第一条排在前面。

Best
--lionsoul

Original comment by chenxin6...@gmail.com on 12 Jun 2014 at 2:11

Changed title: 匹配精度问题（已解决）

GoogleCodeExporter commented 8 years ago

好的，谢谢。还有一个问题想问一下，如果我想用拼音搜索��
�怎么做？目前貌似打开jcseg.loadpinyin=0这个设置会报错的org.apa
che.lucene.search.highlight.InvalidTokenOffsetsException: Token guanxin exceeds 
length of provided text sized 21

Original comment by Nilson....@gmail.com on 18 Jun 2014 at 1:20

lesamly / jcseg

匹配精度问题（已解决） #24