Closed Frully closed 10 years ago
我有研究了一下,看起来是输出的问题,输出时偶数位的词会变成undefined。 输入“小明小红小方小刚校长”,分词结果如下:
[ { word: '小明',
offset: 0,
length: 6,
attr: 'nr',
idf: 11.699999809265137 },
,
{ word: '小方',
offset: 12,
length: 6,
attr: 'nr',
idf: 13.020000457763672 },
,
{ word: '校长',
offset: 24,
length: 6,
attr: 'n',
idf: 5.239999771118164 } ]
注意小明和小方、小方和校长之间多出一个逗号
Well, that's a bug...不仔细看还真看不出多了逗号。
为了增加去除换行符和在分词结果里加入停用词功能(官方的只有在get_top时才有使用停用词),我修改了一部分libscws的代码。我看看是什么原因,谢谢反馈。
@Frully bug已修复,发布了v0.2.2 https://github.com/dotSlashLu/nodescws#v022 npm也已更新。再次感谢:)
感谢修复
“农夫三国”这个词使用nodescws分出来只剩“农夫”,“三国”没了。 对比官方scws的dome是两个词都能分出来的。 使用的是默认词典和规则。 尝试过调整设置,应该不是设置问题。 求教是何原因?