Open WitLes opened 4 years ago
例如“农夫山泉矿泉水5000毫升应用水纯净水”
python版本:['农夫', '农夫山泉', '山泉', '矿泉', '矿泉水', '泉水', '5000', '毫升', '应用', '用水', '纯净', '纯净水', '净水'] 该版本: ['农夫', '农夫山泉', '山泉', '矿泉', '矿泉水', '泉水', '5', '0', '0', '0', '毫升', '应用', '用水', '纯净', '纯净水', '净水']
@WitLes 对于英文以及数字的处理,python版本的jieba和cppjieba的确是不一样的:
但是,对于你提出的问题,我觉得是使用不当导致的,“5000”是一个非常简单的数字模块,开启HMM分词(hmm=true)以后肯定可以分对的,像你说的那种情况,大概率是因为没打开HMM模型分词(hmm=false)
hmm=true
hmm=false
例如“农夫山泉矿泉水5000毫升应用水纯净水”
python版本:['农夫', '农夫山泉', '山泉', '矿泉', '矿泉水', '泉水', '5000', '毫升', '应用', '用水', '纯净', '纯净水', '净水'] 该版本: ['农夫', '农夫山泉', '山泉', '矿泉', '矿泉水', '泉水', '5', '0', '0', '0', '毫升', '应用', '用水', '纯净', '纯净水', '净水']