cloudtrends / paoding

Automatically exported from code.google.com/p/paoding
0 stars 0 forks source link

中文数字解析问题 #50

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
问题:
解析 “一九一五年”的结果是:"191" "五年"
这是个错误的结果,因为当用户搜索 "1915" 或者 "一九一五" 
的时候是查不到结果的。

分析:
Paoding先在词典里查找有没有合适的词,这时候会找到“五年�
��,然后将"一九一"作为
孤立短语解析成"191",这种做法对非数字中文是合理的,但是
对数字中文就有问题。

解决:
修改CJKKnife::dissect()方法,将所有数字中文都作为孤立短语解�
��。这样“一九一
五年”的解析结果就是 "1915" "年"

Original issue reported on code.google.com by reno....@gmail.com on 4 Dec 2009 at 4:24

Attachments:

GoogleCodeExporter commented 9 years ago
上面的算法在处理单个中文数字的时候还有问题,例如“一��
�”,所以还不能将所有数字中文都作
为孤立短语解析,得区别对待连续数字和单个数字。

Original comment by reno....@gmail.com on 4 Dec 2009 at 4:59

GoogleCodeExporter commented 9 years ago
thank you;
现在paoding还没有开发大家提交patch,下一个版本我修改上去

再次感谢

Original comment by qieqie.wang on 7 Dec 2009 at 2:48