词库格式、意义及其算法？

leizongmin / node-segment

基于Node.js的中文分词模块

Other

1.2k stars 132 forks source link

词库格式如下：词语 | 词性 | 权值词性参考这个文件：https://github.com/leizongmin/node-segment/blob/master/lib/POSTAG.js#L9 权值怎么计算我也不大清楚，词库是采用自“盘古分词组件”的（http://pangusegment.codeplex.com/）。建议自定义的词默认都设置为1，然后分词测试一下，再调整到合适的值吧权值是越大越优先

对于诸如“冒顿”这类的词语，暂时可以制作成自定义的词库来使用，如：

var Segment = require('node-segment').Segment;
var segment = new Segment();
segment.useDefault();

// 载入字典，自定义字典文件的绝对路径
segment.loadDict('/dict.txt');

leizongmin / node-segment

词库格式、意义及其算法？ #3