huaban / jieba-analysis

结巴分词(java版)
https://github.com/huaban/jieba-analysis
Apache License 2.0
2.55k stars 835 forks source link

java版的分词结果和Python版的分词结果不一致 #117

Open sdd031215 opened 4 years ago

sdd031215 commented 4 years ago

单词“如家金沙” 在python版下结果是:如 家 金沙 而在java中结果是:如家 金沙

若“如家 3”加入到自定义词库, 在python版下结果是:如 家 金沙 而在java中结果是:如家 金沙

若“如家 30”加入到自定义词库, 在python版下结果是:如家 金沙 而在java中结果是:如家 金沙

@piaolingxue ,能帮看一下吗?

sdd031215 commented 4 years ago

在Python中加入HMM=True,结果还是不一致

FFFro commented 4 years ago

你把如家从原始词典里面删掉

sdd031215 commented 4 years ago

@FFFro "如家 3"同时在java版和Python版的自定义词库中,分出的结果仍然不一致