thunlp / THULAC

An Efficient Lexical Analyzer for Chinese
MIT License
793 stars 172 forks source link

使用训练模型,带有数字的词被错分的问题 #12

Closed gispace- closed 7 years ago

gispace- commented 7 years ago

我使用THULAC的训练器基于自己的训练数据获得模型,用新的模型对词进行分词和标注词性,发现有数字的地方被错分,比如:

训练数据示例如下: 北京市/city 昌平区/district 北六环/road 59号/house_number 小汤山桥/name 对“北京市昌平区北六环59号小汤山桥”分词,得到的结果是这样的: 北京市_city 昌平区_district 北六环_road 59_name 号小汤山桥_name

gzp9595 commented 7 years ago

您好,我们训练模型是根据概率进行的,可能的原因是因为您提供的语料较少,所以训练出来的效果比较一般;另外一个原因是,我们在分词的时候为了避免出现一些错误,所以将数字、字母与汉字严格区分开了,这样做的好处是在后处理的时候可以再合并起来。