fukuball / jieba-php

"結巴"中文分詞:做最好的 PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best PHP Chinese word segmentation module.
http://jieba-php.fukuball.com
MIT License
1.32k stars 260 forks source link

jieba不考虑换掉词典格式吗? #40

Open noqcom opened 6 years ago

noqcom commented 6 years ago

结巴的词典格式非常慢,随便一句话还没开始分词都要接近一秒。 跟SCWS的txt词典一样慢,但SCWS有sqlite跟xdb词典可用。

fukuball commented 6 years ago

這個部分可能需要有人幫忙~

350050183 commented 5 years ago

纯txt词库确实很慢,而且还占用很多的内存,对于生产业务来说不太合适。整体上功能是可以使用的,不错,赞一个,如果完善一个这个问题,相信会有质的提升。谢谢作者。