gaboolic / rime-frost

白霜词库:蒹葭苍苍,白露为霜。基于雾凇拼音重制的,更纯净、词频准确、智能的词库。使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化。白霜词库是目前rime方案下最好的词库,在不使用智能模型的情况下可以超越使用智能模型的词库方案。目前使用白霜词库的方案有:墨奇音形(双拼辅)https://github.com/gaboolic/rime-shuangpin-fuzhuma 、墨奇五笔整句https://github.com/gaboolic/rime-wubi-sentence
GNU General Public License v3.0
423 stars 23 forks source link

pref: 加快排序和分词速度 #15

Closed Mintimate closed 1 month ago

Mintimate commented 1 month ago
gaboolic commented 1 month ago

去掉标点符号会对分词结果有差异,比如 str = "为什么领导喜欢说“我只要看结果”?" seg_list = jieba.cut(str, cut_all=False) print("精确模式: " + "/ ".join(seg_list)) str = re.sub(r'[^\w\s]', '', str) seg_list = jieba.cut(str, cut_all=False) print("精确模式: " + "/ ".join(seg_list))

结果: 精确模式: 为什么/ 领导/ 喜欢/ 说/ “/ 我只/ 要看/ 结果/ ”/ ? 精确模式: 为什么/ 领导/ 喜欢/ 说我/ 只要看/ 结果

不过我先合了再改吧

Mintimate commented 1 month ago

原来jieba库还会根据标点语义分词,之前都没注意