thunlp / THULAC-Python

An Efficient Lexical Analyzer for Chinese
MIT License
2.02k stars 336 forks source link

分词错误 #120

Open wencan opened 1 year ago

wencan commented 1 year ago

thulac.thulac().cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。') 输出: [['本书', 'r'], ['由', 'p'], ['百', 'm'], ['度', 'q'], ['官方', 'n'], ['出', 'v'], ['品', 'g'], [',', 'w'], ['百', 'm'], ['度', 'q'], ['公司', 'n'], ['CTO', 'nz'], ['王海峰', 'np'], ['博士', 'n'], ['作', 'v'], ['序', 'n'], [',', 'w'], ['张钹', 'np'], ['院士', 'n'], ['、', 'w'], ['李未', 'np'], ['院士', 'n'], ['、', 'w'], ['百', 'm'], ['度', 'q'], ['集团', 'n'], ['副', 'a'], ['总裁', 'n'], ['吴甜', 'np'], ['联袂', 'd'], ['推荐', 'v'], ['。', 'w']]

或 thulac.thulac(seg_only=True).cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。') 输出: [['本书', ''], ['由', ''], ['百度', ''], ['官方', ''], ['出品', ''], [',', ''], ['百度', ''], ['公司', ''], ['CTO', ''], ['王海峰', ''], ['博士', ''], ['作', ''], ['序', ''], [',', ''], ['张钹', ''], ['院士', ''], ['、', ''], ['李未', ''], ['院士', ''], ['、', ''], ['百度', ''], ['集团', ''], ['副', ''], ['总裁', ''], ['吴甜联袂', ''], ['推荐', ''], ['。', '']]