Closed GoogleCodeExporter closed 9 years ago
我对一下6种中文分词做了横向评测,我以搜索引擎对分词的� ��求作为评测标准, IK -http://code.google.com/p/ik-analyzer/ Mmseg4j -http://code.google.com/p/mmseg4j/ SmartCN -a java implementation of itcclass, from latest lucene pakage, under org.apache.lucene.analysis.cn.smart Paoding -http://code.google.com/p/paoding/ Stanford -http://nlp.stanford.edu/software/segmenter.shtml ICTCLAS2011 -http://hi.baidu.com/drkevinzhang/blog/item/149e29f8ace33e046c22eb45.html 评测的结果出乎我的意料,Mmseg4j不但是最快的(Standfor,ICTCLAS 2011比较慢),而且效果是最好的:它的分词粒度小,很少产� ��不相关的词(相对paoding,IK),对公司名分词效果很好。不足� ��是相对(smartCN,ICTCLAS2011)对歧义的判断没那么准。虽然搜�� �引擎对歧义并不太介意(相对于名词的分词)但是如果能在� ��方面提高的话,对于别的分词系统就会有绝对的优势。 这是我测出有问题的用例: 结婚 的 和尚 未 结婚 的 他说 的确 实在 理 把手 抬起 来 (把/手) 邓 颖 超生 前 使用 过 的 物品 阿拉 斯 加 遭 强暴 风雪 袭击 致 xx 人 死亡 (强/暴) 今后 三年 中将 翻 两 番 (中/将) 乒乓 球 拍卖 完了 粮食 不 卖给 八路 军 下面两个ICTCLAS2011也搞不定 费 孝 通向 人大 常委 会 提交 书面 报告 梁 启 超生 前 住在 这里 当然很多ICTCLAS2011搞不定的Mmseg都搞定了,如 吴 江西 陵 印刷厂 email:jianfenghit@gmail.com
Original issue reported on code.google.com by *zhengji...@zhihuiya.com on 12 May 2011 at 6:15
*zhengji...@zhihuiya.com
[deleted comment]
谢谢你的测试与建议。
Original comment by chenlb2...@gmail.com on 18 Jun 2011 at 3:08
chenlb2...@gmail.com
Original comment by chenlb2...@gmail.com on 19 May 2014 at 12:16
Original issue reported on code.google.com by
*zhengji...@zhihuiya.com
on 12 May 2011 at 6:15