amutu / zhparser

zhparser is a PostgreSQL extension for full-text search of Chinese language
Other
719 stars 86 forks source link

重复分词 #65

Closed frlzk closed 1 year ago

frlzk commented 2 years ago

"健康生活,陪伴有我" 分词成了 "'健康':2 '健康生活':1 '有':5 '生活':3 '陪伴':4" 其中 "'健康" 被重复分词,造成使用ts_headline时文本重复 "健康生活健康生活,陪伴有我"

wilhelm-z commented 2 years ago

"健康生活,陪伴有我"分词了 "'健康':2 '健康生活':1 '有':5 '生活':3 '陪伴':4" 其中 "'健康" 被重新分词,构建使用ts_headline时代文本复现“健康生活健康生活,陪伴有我”

我也遇到类似的问题 但是找不到什么解决的办法 请问您有什么方案 或者想法么

amutu commented 2 years ago

http://www.xunsearch.com/scws/demo/v48.php 打开了最短词?

wilhelm-z commented 2 years ago

http://www.xunsearch.com/scws/demo/v48.php 打开了最短词? 是的 例如 "宣传手册" 如果我不开最短词 我搜索宣传 或者 手册 是搜索不到的 只能打开最短词 但是这样造成的问题就是 如果我搜索 ”宣传手册“ ts_headline的标记结果为 宣传手册 宣传 手册 很苦恼我应该怎么取解决这个问题

zlianzhuang commented 1 year ago

zhparser 底层调用的scws库,通过对scws库的调查,目前没有什么好方法。