$Id$
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。词是 中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开,所以如何准确并快速分词一直 是中文分词的攻关难点。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的
中文编码包括 GBK
、UTF-8
等。此外还提供了 PHP 扩展模块,可在 PHP 中快速
而方便地使用分词功能。
分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间,基本上能满足一些 小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。
SCWS 由 hightman 开发,并以 BSD 许可协议开源发布 ,参见 COPYING。
目前 scws 只提供源码包,和大多数 GNU 软件的编译安装步骤一样。下面我们以 Linux
系统为例,
要求装有 gcc
编译器。Windows
上则建议用 cygwin 或 mingw 环境编译。
取得 scws 源码并解压到当前目录
wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.1.tar.bz2 | tar xjf -
进入源码目录配置和编译
cd scws-1.2.1 ; ./configure ; make install
注意:这是以默认方式安装到
/usr/local
目录。详细配置参数执行./configure --help
查看。
在 UNIX 类的系统上,请直接从源码方式编译安装 PHP 扩展;对于 windows 系统,请直接下载我们编译好的
php_scws.dll
即可。
假定您已经将 scws 安装到 $prefix
目录,还要求系统环境装有 autoconf automake 及 phpize 工具。
进入源码目录的 phpext/ 并执行 phpize
(位于 php 安装目录下的 bin 目录里)
执行 configure
进行配置和基础检测,假定您的 php 安装在 $php_prefix
目录
./configure --with-scws=/usr/local --with-php-config=$php_prefix/bin/php-config
先编译然后以 root
身份安装
make
sudo make install
在 php.ini 中加入以下内容
[scws]
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 extension = scws.so 或 php_scws.dll 指定绝对路径。
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = $prefix/etc
命令行下执行 php -m
就能看到 scws 了,phpinfo() 也会包含关于 scws 的信息。
windows 下的 php 扩展是采用 dll 库文件。我们已预编译若干个版本,采用 zip 压缩位于
phpext/win32/php_scws-1.2.1-win32.zip
,请直接解压后选择相应版本的 php_scws.dll
。
将它复制到 PHP 的扩展目录中(通常是 extensions 或 ext 目录),然后参考上面的方式修改 php.ini
。
关于 PHP 扩展的示例用法及开发参考,请参见 phpext/README.md。
$prefix/bin/scws 这是分词的命令行工具,执行 scws -h 可以看到详细帮助说明。
Usage: scws [options] [[-i] input] [[-o] output]
-d file[:file2[:...]] 指定词典文件路径(XDB格式,请在 -c 之后使用)
自 1.1.0 起,支持多词典同时载入,也支持纯文本词典(必须是.txt结尾),多词典路径之间用冒号(:)隔开,
排在越后面的词典优先级越高。
文本词典的数据格式参见 scws-gen-dict 所用的格式,但更宽松一些,允许用不定量的空格分开,只有<词>是必备项目,
其它数据可有可无,当词性标注为“!”(叹号)时表示该词作废,即使在较低优先级的词库中存在该词也将作废。
$prefix/bin/scws-gen-dict 词典转换工具
Usage: scws-gen-dict [options] [-i] dict.txt [-o] dict.xdb
文本词典格式为每行一个词,各行由 4 个字段组成,字段之间用若干个空格或制表符(\t)分隔。 含义(其中只有 <词> 是必须提供的),
#
开头的行视为注释忽略不计:#<词> <词频(TF)> <词重(IDF)> <词性(北大标注)> 新词条 12.0 2.2 n
这是整合 scws 到其它应和程序的接口说明,详见 API。
(暂缺)
我们的词典使用的是自行开发的专用 XDB 格式,免费提供的词典是通用的互联网信息词汇集, 收录了大约 28 万个词。
如果您需要定制词典以作特殊用途,请与我们联系,可能会视情况进行收费。
在 FreeBSD 6.2 系统,单核单 CPU 至强 3.0G 的服务器上,测试长度为 80,535 的文本。 用附带的命令行工具耗时将约 0.17 秒,若改用 php 扩展方式调用,则耗时约为 0.65 秒。
分词精度 95.60%,召回率 90.51% (F-1: 0.93)
该文档由 hightman 于 2007/06/08 首次编写,同时在不断修订中!
项目主页:http://www.xunsearch.com/scws 我的邮箱:hightman2@yahoo.com.cn