hightman / scws

开源免费的简易中文分词系统,PHP分词的上乘之选!
http://www.xunsearch.com/scws/
Other
1.65k stars 348 forks source link

添加新词 #2

Closed kimiduan closed 11 years ago

kimiduan commented 11 years ago

hightman您好 我的代码如下: <?php header("Content-type:application/json"); $so = scws_new(); $so->set_charset('utf8'); $so->set_dict('C:\scws\etc\dict.utf8.xdb'); $so->set_rule('C:\scws\etc\rules.ini'); $so->add_dict('C:\scws\etc\dict_extra.txt',SCWS_XDICT_TXT); $so->send_text("兆民云计算科技有限公司成立于2009年,是一家专注于云计算研究和开发的高新技术企业,也是中国领先的电信互联网基础设施服务提供商之一,为上海云海产业联盟首批成员,总部位于上海,并在天津、北京、云南等地拥有子公司。兆民云计算汇聚了国内外顶尖的研发人员,并与知名科研机构、学者缔结战略合作,具有雄厚的科研实力。秉承'造福于民'的理念,兆民云计算致力于为广大用户提供优质、高效、专业、稳定的云服务,推出了桌面云、云电脑、云存储、云主机等一系列产品。并依托兆民云计算IaaS平台,结合各细分行业的需求,量身定制了'教育云'、'高校云实验室',''矿山安全云'、'食品安全云'、'零售云'、'中小企业信息化云'等完整的行业解决方案,先后获得国家中小企业信息化公共服务平台、双软企业认定等一系列荣誉和资质。"); while ($tmp = $so->get_result()) { print_r($tmp); } $so->close(); ?> 我在dict_extra.txt添加了“云计算”这个词,但是分词的时候仍旧会被分为“云 计算”,请问是什么问题,谢谢

hightman commented 11 years ago

你的字典怎么写的,里面的内容是否为正确的UTF-8编码呢

kimiduan commented 11 years ago

云计算 0 0 n

以上是我记事本的内容,保存的时候选择了utf-8编码。谢谢

kimiduan commented 11 years ago

我之前在记事本中只写“云计算”三个字也没起作用。

hightman commented 11 years ago

还有一种情况,由于自定义词典实际上是在临时目录生成 .xdb 文件,如果临时的 xdb 文件比你的 txt 还要新的话是不会更新的。你去 ls -al /tmp/*.xdb 看看时间,或清除掉它们试试。

kimiduan commented 11 years ago

恩问题已经解决,谢谢