Closed Mintimate closed 1 month ago
去掉标点符号会对分词结果有差异,比如 str = "为什么领导喜欢说“我只要看结果”?" seg_list = jieba.cut(str, cut_all=False) print("精确模式: " + "/ ".join(seg_list)) str = re.sub(r'[^\w\s]', '', str) seg_list = jieba.cut(str, cut_all=False) print("精确模式: " + "/ ".join(seg_list))
结果: 精确模式: 为什么/ 领导/ 喜欢/ 说/ “/ 我只/ 要看/ 结果/ ”/ ? 精确模式: 为什么/ 领导/ 喜欢/ 说我/ 只要看/ 结果
不过我先合了再改吧
原来jieba
库还会根据标点语义分词,之前都没注意