lpffeihu / ictclas4j

Automatically exported from code.google.com/p/ictclas4j
0 stars 0 forks source link

ictclas4j性能问题 #4

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
通过和我自己实现的基于最大正向匹配算法的中文分析比较��
�发现现在的ictclas4j速度慢了很
多,至少在一个数量级以上(目前,我的算法不做词性标注��
�会节省一倍时间)。使用
netbeans + 
profiler分析org.ictclas4j.run.SegMain方法,发现问题在于几个方面��
�
1. 
代码直接从ictclas(c语言版)转换过来的,没有考虑c和java在字
符串处理和基本数据类型
操作的区别,比如字符的判断(全角、半角、中文、英文、��
�点等),应该用位操作来实现;
2. 
大量使用了java的String.getBytes()方法(在org.ictclas4j.utility.Utility
中);
3. 大量使用了StringBuffer.append()和toString()方法;

对这些地方略做改进,效率有3.5--4倍的提升。

另外,在词表查询上,渴望通过双重哈希表来提升词典查询��
�速度。

附件是通过netbeans profiler性能分析得到的ictclas4j的输出。

我争取在最近把上述问题修正了,为ictclas4j提供一个补丁。

Original issue reported on code.google.com by lpfh...@gmail.com on 26 Oct 2007 at 9:49

Attachments:

GoogleCodeExporter commented 8 years ago
大哥,小弟开始学习ictclas4j,能发些学习资料给小弟吗?

不胜感激。小弟邮箱:programmer2.x@gmail.com

Original comment by Programm...@gmail.com on 12 May 2009 at 1:16