ictclas4j性能问题 - Githubissues

通过和我自己实现的基于最大正向匹配算法的中文分析比较��
�发现现在的ictclas4j速度慢了很
多，至少在一个数量级以上（目前，我的算法不做词性标注��
�会节省一倍时间）。使用
netbeans + 
profiler分析org.ictclas4j.run.SegMain方法，发现问题在于几个方面��
�
1. 
代码直接从ictclas(c语言版）转换过来的，没有考虑c和java在字
符串处理和基本数据类型
操作的区别，比如字符的判断（全角、半角、中文、英文、��
�点等），应该用位操作来实现；
2. 
大量使用了java的String.getBytes()方法（在org.ictclas4j.utility.Utility
中）；
3. 大量使用了StringBuffer.append()和toString()方法；

对这些地方略做改进，效率有3.5--4倍的提升。

另外，在词表查询上，渴望通过双重哈希表来提升词典查询��
�速度。

附件是通过netbeans profiler性能分析得到的ictclas4j的输出。

我争取在最近把上述问题修正了，为ictclas4j提供一个补丁。

Original issue reported on code.google.com by lpfh...@gmail.com on 26 Oct 2007 at 9:49

Attachments:

tree.jpg

ME-126 / ictclas4j

ictclas4j性能问题 #4