thunlp / THULAC-Python

An Efficient Lexical Analyzer for Chinese
MIT License
2.02k stars 336 forks source link

有小数点数字的分词 #82

Open lkluo opened 5 years ago

lkluo commented 5 years ago

分词的时候会将小数点单独成一个部分,这个不合理。

gzp9595 commented 5 years ago

在处理分词的时候,将数字和字符强制分开了,防止一些特殊的问题出现,如果需要可以修改一下preprocess里面的处理~