yanyiwu / cppjieba

"结巴"中文分词的C++版本
MIT License
2.57k stars 690 forks source link

如何确定新增词freq保证能被分出 #177

Open Pandasea opened 1 year ago

Pandasea commented 1 year ago

python版本中 list(jieba.cut("我新买的话机到了"))

['我', '新', '买', '的话', '机到', '了'] jieba.add_word('到了') ['我', '新', '买', '的话', '机', '到了'] 但c++版本中 InsertUserWord("到了", 10000); 这样才可以将 到了 单独切分,和python版本不一致,且不知道这个freq怎么确定?