Open GoogleCodeExporter opened 8 years ago
reno,是不是我们在分词上有问题?
Original comment by qieqie.wang
on 18 Mar 2010 at 2:32
[deleted comment]
[deleted comment]
[deleted comment]
不是分词的问题,lucene自带的高亮是不能正确处理分词重叠��
�情况的,如 ABC =>
AB/BC ,高亮就会显示成ABBC
但standaryanlyzer的分词因为不存在重叠的情况,所以没这个问��
�。
所以问题的根源是lucene的高亮是处理西方语言的,而西方语��
�不存在重叠的情况。
在paoding新版本的发布时,会提供一个Lucene
highlighter中文高亮的fix版本,会解决这个问题。
Original comment by reno....@gmail.com
on 18 Mar 2010 at 2:49
非常感谢,希望paoding的支持lucene3.0的包和支持高亮的包尽快�
��供。
Original comment by gengbo1...@gmail.com
on 19 Mar 2010 at 8:24
非常期待,2010年我一直在等待。
高亮存在如下问题:
1、符号被过滤掉
2、出现重叠
Original comment by stt...@163.com
on 10 Aug 2010 at 6:51
嗯,这些问题是存在的,reno告诉我已经fix到svn库中,只是我�
��有提供打包好的下载版。
Original comment by qieqie.wang
on 10 Aug 2010 at 6:57
符号好像不被过滤掉,但是过滤词是不会高亮显示,并且重��
�的问题好像未解决掉,如:
检索:关于做好220kV
关于做好220220kV增棠甲乙线增容改造及永和开发区迁改期间电
网安全及电力供应工作的通知
检索:关于组织收看《广州市学习实践科学发展观活动专题��
�告会》的通知
关于组织收看《广州市学习实践科学发展观活动专题广州市��
�习实践科学发展观活动专题报告会》的通知
检索:220kv
关于印发《广州供电局110kV~220220kV高压设备SF6气体湿度带电�
��试工作管理规定》的通知
Original comment by stt...@163.com
on 10 Aug 2010 at 2:25
Attachments:
重叠词分词高亮的问题,lucene已解决了,详见https://issues.apach
e.org/jira/browse/LUCENE-627?page=com.atlassian.jira.plugin.system.issuetabpanel
s:comment-tabpanel#action_12421332
但还是有问题,个人认为是庖丁分词输出词序的问题导致的��
�
举例:
词库中包含词语“因为”“为爱”“爱”“爱情”...
doc=因为爱
关键词=因为为爱,分词结果=因为 爱 为爱
高亮结果是:<B>因为</B><B>为爱</B>
如果把词库的“爱”去掉,则高亮结果正确。
Original comment by cn.yan...@gmail.com
on 21 Apr 2011 at 3:12
Original issue reported on code.google.com by
gengbo1...@gmail.com
on 10 Mar 2010 at 7:41