yanyiwu / cppjieba

"结巴"中文分词的C++版本
MIT License
2.61k stars 690 forks source link

inconsistent with jieba raw python version, seems less accurate #57

Closed psy2013GitHub closed 8 years ago

psy2013GitHub commented 8 years ago

string s = "附近可点击开飞机的科技开发的开放的了骄傲的龙卷风房贷款及付3的即可看见空间打开" _## python version: jieba.posseg.cut _ 附近 f 可 v 点击 v 开 v 飞机 n 的 uj 科技开发 nt 的 uj 开放 v 的 uj 了 ul 骄傲 a 的 uj 龙卷风 nr 房 n 贷款 n 及 c 付 v 3 m 的 uj 即可 d 看见 v 空间 n 打开 v

## cppjieba version tag 附近 f 可 v 点击 v 开 v 飞机 n 的 uj 科技开发 nt 的 uj 开放 v 的 uj 了 ul 骄傲 a 的 uj 龙卷风 nr 房 n 贷款 n 及付 x 3 x 的 uj 即可 d 看见 v 空间 n 打开 v

## inconsistent lies in number 3

yanyiwu commented 8 years ago

谢谢反馈。 老实说,cppjieba对词性标注的支持目前不太好,需要依赖词性标注的建议还是使用 jieba分词吧。

psy2013GitHub commented 8 years ago

嗯。