使用训练模型，带有数字的词被错分的问题

thunlp / THULAC

An Efficient Lexical Analyzer for Chinese

MIT License

793 stars 172 forks source link

使用训练模型，带有数字的词被错分的问题 #12

Closed gispace- closed 7 years ago

gispace- commented 7 years ago

我使用THULAC的训练器基于自己的训练数据获得模型，用新的模型对词进行分词和标注词性，发现有数字的地方被错分，比如：

训练数据示例如下： 北京市/city 昌平区/district 北六环/road 59号/house_number 小汤山桥/name 对“北京市昌平区北六环59号小汤山桥”分词，得到的结果是这样的： 北京市_city 昌平区_district 北六环_road 59_name 号小汤山桥_name

gzp9595 commented 7 years ago

您好，我们训练模型是根据概率进行的，可能的原因是因为您提供的语料较少，所以训练出来的效果比较一般；另外一个原因是，我们在分词的时候为了避免出现一些错误，所以将数字、字母与汉字严格区分开了，这样做的好处是在后处理的时候可以再合并起来。