fxsjy / jieba

结巴中文分词
MIT License
33.41k stars 6.73k forks source link

add_word多次后,出现bug #946

Open Peterpig opened 3 years ago

Peterpig commented 3 years ago
import jieba
from jieba import Tokenizer
import os
os.system('rm -r /tmp/jieba.cache')
tk = Tokenizer()

tk.add_word('直肠', freq=1000000000)
print(list(tk.tokenize("直肠癌肝肺转移姑息术后", HMM=False)))
for i in range(4):
    tk.add_word(f'{i}', freq=1000000000)
    print(list(tk.tokenize("直肠癌肝肺转移姑息术后", HMM=False)))

image

1: 不增加直肠,默认会切出来直肠癌 2:增加直肠后,立即可以切出来直肠,符合预期 3:然后add_word了多次,加了一些没用的词,这里加的是1、2、3、4字符串 4:然后再去切词。直肠就出不来了

Peterpig commented 3 years ago

image

使用suggest_freq也无效