Open Peterpig opened 3 years ago
import jieba from jieba import Tokenizer import os os.system('rm -r /tmp/jieba.cache') tk = Tokenizer() tk.add_word('直肠', freq=1000000000) print(list(tk.tokenize("直肠癌肝肺转移姑息术后", HMM=False))) for i in range(4): tk.add_word(f'{i}', freq=1000000000) print(list(tk.tokenize("直肠癌肝肺转移姑息术后", HMM=False)))
1: 不增加直肠,默认会切出来直肠癌 2:增加直肠后,立即可以切出来直肠,符合预期 3:然后add_word了多次,加了一些没用的词,这里加的是1、2、3、4字符串 4:然后再去切词。直肠就出不来了
使用suggest_freq也无效
1: 不增加直肠,默认会切出来直肠癌 2:增加直肠后,立即可以切出来直肠,符合预期 3:然后add_word了多次,加了一些没用的词,这里加的是1、2、3、4字符串 4:然后再去切词。直肠就出不来了