yanyiwu / cppjieba

"结巴"中文分词的C++版本
MIT License
2.57k stars 690 forks source link

cut_all与python版本对数字的分词结果不一致 #138

Open WitLes opened 4 years ago

WitLes commented 4 years ago

例如“农夫山泉矿泉水5000毫升应用水纯净水”

python版本:['农夫', '农夫山泉', '山泉', '矿泉', '矿泉水', '泉水', '5000', '毫升', '应用', '用水', '纯净', '纯净水', '净水'] 该版本: ['农夫', '农夫山泉', '山泉', '矿泉', '矿泉水', '泉水', '5', '0', '0', '0', '毫升', '应用', '用水', '纯净', '纯净水', '净水']

PierreZhangcw commented 4 years ago

@WitLes 对于英文以及数字的处理,python版本的jieba和cppjieba的确是不一样的:

但是,对于你提出的问题,我觉得是使用不当导致的,“5000”是一个非常简单的数字模块,开启HMM分词(hmm=true)以后肯定可以分对的,像你说的那种情况,大概率是因为没打开HMM模型分词(hmm=false)