studycwq / paoding

Automatically exported from code.google.com/p/paoding
0 stars 0 forks source link

分次的问题 #10

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
有一段文章,中间含“第七十四军”的文字,客户端尝试搜��
�“七十四军”,没有结果,
再尝试用paoding带的分次工具分,结果如下:
paoding> 第七十四军;
1:      第七/第七十/4/军/
        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 5字符, 分 4个词
        分词耗时 31ms
--------------------------------------------------
paoding> 七十四军;
1:      74/军/
        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 4字符, 分 2个词
        分词耗时 0ms
--------------------------------------------------
paoding>

建索引的时候送进去的文字是“第七十四军”, 
这样搜索时搜索“七十四军”就没有结果了。
不知道有没有什么好的办法?

Original issue reported on code.google.com by fore...@gmail.com on 10 Apr 2008 at 6:33

GoogleCodeExporter commented 9 years ago
有两点考虑:
1. 
所有的数字是不是应该单独分出来,不管前面有没有修饰,��
�如“第”是个修饰;
2. 
分次应该是“稳定”的,我的意思是,句子和句子的一部分��
�词的效果,对句子的一部分来讲是
一样的。比如“第七十四军”和“七十四军”,“七十四军��
�分出“74,军”,“第七十四军”也应该分出
这两个词。

谢谢。

Original comment by fore...@gmail.com on 10 Apr 2008 at 8:31