sampr0 / ik-analyzer

Automatically exported from code.google.com/p/ik-analyzer
0 stars 0 forks source link

量词与数词的歧义 #127

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
原文本:“两门衣柜”
期望结果:“两门 衣柜”
实际结果:“两 门 衣柜”
版本:2012u6

我在测试时发现,在中文量词分词器中,“两”首先被processC
Number方法处理,但因为无法判断后来字符是否会结合成更大��
�数,所以只记录了位置;接下来“两”被processCount方法处理�
��在量词词典中成功匹配并计入AnalyzeContext的orgLexemes集合。字
符游标++,现在要处理的字符是“门”,processCNumber里匹配数�
��失败,准备根据上一次录的数词位置添加数词,但orgLexemes��
�合的行为是重复则忽略,所以“两”这个词就固定为了量词�
��
不知道这个处理方式是特意这么做的吗?如果是的话,目的��
�什么呢?如果不是的话,建议这个地方做一下判断。
另外,建议提供词典的动态加载(最好是提供接口自己实现��
�这样就可以应对数据库等数据源)。另外在歧义处理时,也�
��以提供接口来扩展。我现在做词频分词,就把逻辑添加到Lex
emePath的compareTo方法中的,遇到类库升级就很麻烦。

Original issue reported on code.google.com by znf...@gmail.com on 15 Oct 2013 at 6:26