fxsjy / jieba

结巴中文分词
MIT License
33.41k stars 6.73k forks source link

支持用户词典中包含标点符号 #938

Open lingvisa opened 3 years ago

lingvisa commented 3 years ago

C++ 版本好像已经实现了, 这里:

https://github.com/yanyiwu/cppjieba/issues/67

但 Python 还是不行。 例如,用户词典中可以有:

《留守女士》
同一个世界,同一个梦想

这些在标点符号处都被切开了。有没有办法在 pyhton 也支持?