leizongmin / node-segment

基于Node.js的中文分词模块
Other
1.2k stars 132 forks source link

是否有参数可以指定分词时,不作联想组合,只返回最小词组? #11

Open hotoo opened 10 years ago

hotoo commented 10 years ago

分词模块自动联想合并词组本来是挺好的,但是作为拼音的依赖模块,这个功能反而带来了麻烦。 这种不确定性导致词组拼音库极大的增加,如果可以不做联想,返回最小词组(成语例外)就比较好处理了。比如:

文本 实际结果 期望结果
香港特别行政区 香港特别行政区 香港, 特别, 行政, 区
重庆市 重庆市 重庆, 市
重庆市政府 重庆市, 政府 重庆, 市, 政府
重庆市区 重庆, 市区 重庆, 市区
重庆市民 重庆, 市民 重庆, 市民

注:最小词组也许不准确,比如成语可以继续拆分,应该优先返回成语。

不同的使用场景可以要求不同,比如对于拼音来说,拆分成『最小』、准确的词组会比较好;而对于语义分析坑能联想会较好。

期待你的意见 :smiley:

hotoo commented 10 years ago

https://github.com/hotoo/node-pinyin/issues/18