shibing624 / similarity

similarity: Text similarity calculation Toolkit for Java. 文本相似度计算工具包,java编写,可用于文本相似度计算、情感分析等任务,开箱即用。
https://shibing624.github.io/similarity/
Apache License 2.0
1.41k stars 325 forks source link

句子相似度 #35

Open Tang1705 opened 2 years ago

Tang1705 commented 2 years ago

以“中国人不爱吃鱼”和“中国人喜爱吃鱼”为测试样例,词形词序句子相似度值为0.73,优化的编辑距离句子相似度值、标准编辑距离句子相似度值和 gregeor 编辑距离句子相似度值均 0.5,对于这种相似度计算无法令人满意的情况是否有更好的解决办法

shibing624 commented 2 years ago

强化否词(例子中是“不”)的权重,再算相似度。

Tang1705 commented 2 years ago

是否有相关文档可以参考,或者您可以简单说明一下如何在代码中进行修改吗

shibing624 commented 2 years ago

类似https://github.com/shibing624/similarity/blob/master/src/main/java/org/xm/similarity/text/ManhattanDistanceTextSimilarity.java#L52 对否词加个大的权重。

Tang1705 commented 2 years ago

类似https://github.com/shibing624/similarity/blob/master/src/main/java/org/xm/similarity/text/ManhattanDistanceTextSimilarity.java#L52 对否词加个大的权重。

好的,谢谢回复