Open lucus-lee opened 5 years ago
$ scws -c utf8 -d dict_jieba1.xdb -N -i "中国共产党的初心就是为人民谋幸福" 中国共产党 的 初心 就是 为 人民 谋 幸福
不過我也遇到分詞不對的情況: 官網 ( http://www.xunsearch.com/scws/demo/v48.php ) 上的分詞(段落取自雅虎香港):
屯 門 黃 金 海岸 酒店 可以 講 是 香港 最美 的 臨 海 酒店 之一 , 酒店 內 的 聆 渢 咖啡 廳 更是 chill 住 食 的 理想 地 點 , 室 內 用餐 區 氣 氛 夠 悠 閒 , 而且 亦 可以 選 擇 戶 外 用餐 , 涼 住 海 風 食 buffet 就 更 relax 更 enjoy !
我用jieba詞庫分析的結果:
$ scws -c utf8 -d dict_jieba1.xdb -N -i "屯門黃金海岸酒店...更relax更enjoy!"
屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 室 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !
或是
屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 戶 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !
不論"室外用餐"還是"戶外用餐"使用jieba詞庫都分錯了。
可以啊,看文档添加自定义词库在 2023年6月8日,00:13,Fung Cheok Yin @.***> 写道: $ scws -c utf8 -d dict_jieba1.xdb -N -i "中国共产党的初心就是为人民谋幸福" 中国共产党 的 初心 就是 为 人民 谋 幸福 不過我也遇到分詞不對的情況: 官網 ( http://www.xunsearch.com/scws/demo/v48.php ) 上的分詞(段落取自雅虎香港):
屯 門 黃 金 海岸 酒店 可以 講 是 香港 最美 的 臨 海 酒店 之一 , 酒店 內 的 聆 渢 咖啡 廳 更是 chill 住 食 的 理想 地 點 , 室 內 用餐 區 氣 氛 夠 悠 閒 , 而且 亦 可以 選 擇 戶 外 用餐 , 涼 住 海 風 食 buffet 就 更 relax 更 enjoy !
我用jieba詞庫分析的結果:
$ scws -c utf8 -d dict_jieba1.xdb -N -i "屯門黃金海岸酒店...更relax更enjoy!"
屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 室 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !
或是
屯門 黃金海岸 酒店 可以 講 是 香港 最美 的 臨海 酒店 之一 , 酒店 內 的 聆 渢 咖啡廳 更是 chill 住 食 的 理想 地點 , 室內 用餐 區 氣氛 夠 悠閒 , 而且 亦 可以 選擇 戶 外用 餐 , 涼 住 海風 食 buffet 就 更 relax 更 enjoy !
不論"室外用餐"還是"戶外用餐"使用jieba詞庫都分錯了。
—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you are subscribed to this thread.Message ID: @.***>
中国共产党的初心就是为人民谋幸福
这句话里面,为\人民 被错误的分为了 为人\民
我看了一下自定义词库,里面的记录如下 为人 14.60 4.96 v 人民 14.76 4.41 n
请问是否可以通过修改TF或IDF来解决这个问题?如果可行的话,需要如何调整?
谢谢