waiteryee127 / mmseg4j

Automatically exported from code.google.com/p/mmseg4j
Apache License 2.0
1 stars 0 forks source link

真的很强,能再好一点就有绝对优势了 #22

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
我对一下6种中文分词做了横向评测,我以搜索引擎对分词的�
��求作为评测标准,
IK
-http://code.google.com/p/ik-analyzer/
Mmseg4j
-http://code.google.com/p/mmseg4j/
SmartCN
-a java implementation of itcclass, from latest lucene pakage, under 
org.apache.lucene.analysis.cn.smart
Paoding
-http://code.google.com/p/paoding/
Stanford
-http://nlp.stanford.edu/software/segmenter.shtml
ICTCLAS2011
-http://hi.baidu.com/drkevinzhang/blog/item/149e29f8ace33e046c22eb45.html

评测的结果出乎我的意料,Mmseg4j不但是最快的(Standfor,ICTCLAS
2011比较慢),而且效果是最好的:它的分词粒度小,很少产�
��不相关的词(相对paoding,IK),对公司名分词效果很好。不足�
��是相对(smartCN,ICTCLAS2011)对歧义的判断没那么准。虽然搜��
�引擎对歧义并不太介意(相对于名词的分词)但是如果能在�
��方面提高的话,对于别的分词系统就会有绝对的优势。

这是我测出有问题的用例:
结婚 的 和尚 未 结婚 的 
他说 的确 实在 理 
把手 抬起 来 (把/手)
邓 颖 超生 前 使用 过 的 物品 
阿拉 斯 加 遭 强暴 风雪 袭击 致 xx 人 死亡 (强/暴)
今后 三年 中将 翻 两 番 (中/将)
乒乓 球 拍卖 完了 
粮食 不 卖给 八路 军 
下面两个ICTCLAS2011也搞不定
费 孝 通向 人大 常委 会 提交 书面 报告 
梁 启 超生 前 住在 这里 
当然很多ICTCLAS2011搞不定的Mmseg都搞定了,如
吴 江西 陵 印刷厂

email:jianfenghit@gmail.com

Original issue reported on code.google.com by *zhengji...@zhihuiya.com on 12 May 2011 at 6:15

GoogleCodeExporter commented 9 years ago
[deleted comment]
GoogleCodeExporter commented 9 years ago
谢谢你的测试与建议。

Original comment by chenlb2...@gmail.com on 18 Jun 2011 at 3:08

GoogleCodeExporter commented 9 years ago

Original comment by chenlb2...@gmail.com on 19 May 2014 at 12:16