Open GoogleCodeExporter opened 9 years ago
通过和我自己实现的基于最大正向匹配算法的中文分析比较�� �发现现在的ictclas4j速度慢了很 多,至少在一个数量级以上(目前,我的算法不做词性标注�� �会节省一倍时间)。使用 netbeans + profiler分析org.ictclas4j.run.SegMain方法,发现问题在于几个方面�� � 1. 代码直接从ictclas(c语言版)转换过来的,没有考虑c和java在字 符串处理和基本数据类型 操作的区别,比如字符的判断(全角、半角、中文、英文、�� �点等),应该用位操作来实现; 2. 大量使用了java的String.getBytes()方法(在org.ictclas4j.utility.Utility 中); 3. 大量使用了StringBuffer.append()和toString()方法; 对这些地方略做改进,效率有3.5--4倍的提升。 另外,在词表查询上,渴望通过双重哈希表来提升词典查询�� �速度。 附件是通过netbeans profiler性能分析得到的ictclas4j的输出。 我争取在最近把上述问题修正了,为ictclas4j提供一个补丁。
Original issue reported on code.google.com by lpfh...@gmail.com on 26 Oct 2007 at 9:49
lpfh...@gmail.com
Attachments:
大哥,小弟开始学习ictclas4j,能发些学习资料给小弟吗? 不胜感激。小弟邮箱:programmer2.x@gmail.com
Original comment by Programm...@gmail.com on 12 May 2009 at 1:16
Programm...@gmail.com
Original issue reported on code.google.com by
lpfh...@gmail.com
on 26 Oct 2007 at 9:49Attachments: