yanyiwu / cppjieba

"结巴"中文分词的C++版本
MIT License
2.61k stars 690 forks source link

Demo 跑起来有问题啊 #60

Closed lua9520 closed 8 years ago

lua9520 commented 8 years ago

我从vs里面跑demo项目的时候,结果并不正确 [demo] Cut With HMM 螔/蕠/蛷/-/酆/学/院/蕱/锥/蛷/-/酆/专/业/談/c/一/觾/譅/迌/矛/螔/迧/邸/山/职/軗/薪 /矛/毡/蓮/CEO/矛/谉/蓮/葖/珊/釠?濉 [demo] Cut Without HMM 螔/蕠/蛷/-/酆/学/院/蕱/锥/蛷/-/酆/专/业/談/c/一/觾/譅/迌/矛/螔/迧/邸/山/职/軗/薪 /矛/毡/蓮/C/E/O/矛/谉/蓮/葖/珊/釠?濉 [demo] CutAll 螔/蕠/蛷/-/酆/学/院/蕱/锥/蛷/-/酆/专/业/談/c/一/觾/譅/迌/矛/螔/迧/邸/山/职/軗/薪 /矛/毡/蓮/C/E/O/矛/谉/蓮/葖/珊/釠?濉 [demo] CutForSearch 螔/蕠/蛷/-/酆/学/院/蕱/锥/蛷/-/酆/专/业/談/c/一/觾/譅/迌/矛/螔/迧/邸/山/职/軗/薪 /矛/毡/蓮/CEO/矛/谉/蓮/葖/珊/釠?濉 [demo] Insert User Word 膼/默/女/! 膼默女! [demo] Locate Words 膹, 0, 1 蕞, 1, 2 蕫, 2, 3 婴, 3, 4 莪, 4, 5 猿, 5, 6 菂, 6, 7 [demo] TAGGING 我是拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上CEO,走上人生巅峰 。 ["螔:x", "蕠:x", "蛷:x", "-:x", "酆:x", "学:x", "院:x", "蕱:x", "锥:x", "蛷:x", "-:x", "酆:x", "专:x", "业:x", "談:x", "c:x", "一:x", "觾:x", "譅:x", "迌:x", " 矛:x", "螔:x", "迧:x", "邸:x", "山:x", "职:x", "軗:x", "薪:x", "矛:x", "毡:x", " 蓮:x", "CEO:eng", "矛:x", "谉:x", "蓮:x", "葖:x", "珊:x", "釠?x", "濉?x"] [demo] KEYWORD 78 81 2016-04-07 17:00:46 E:\Project\cppjieba\include\cppjieba/KeywordExtractor.hpp:81 ERROR words illegal 我是拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上CEO,走上人生巅峰 。

我是win7 专业版英文64位系统,cmd default code page 是936 GBK

lua9520 commented 8 years ago

是不是因为我编码不正确的原因,可是我把exe放到中文操作系统里面也是不行,搞得好头痛!

yanyiwu commented 8 years ago

@lua9520 中文系统有 utf8和gbk编码之分。你把vs的编码改成utf8了吗?默认是gbk。gbk是会出问题的。

lua9520 commented 8 years ago

@yanyiwu 我改下试试,带bom 和不带bom的utf-8 有影响么?

qinwf commented 8 years ago

一般分词结果是没有问题的,主要是 Windows 终端显示 UTF-8 字符兼容性不好,有的时候设置终端的编码可以解决。

lua9520 commented 8 years ago

对,是我英文操作系统有问题!解决了!