yaleimeng / Final_word_Similarity

综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。
MIT License
720 stars 154 forks source link

关于反义形容词的相似度计算结果过高的问题 #10

Closed SheriffRabbit closed 2 years ago

SheriffRabbit commented 2 years ago

进行了几组形容词的测试 结果如下 两个词都被词林和知网共同收录。 暗淡 明亮 词林改进版相似度: 0.8961421789692562 知网相似度结果为: 0.7999999999999999
漂亮 难看 词林改进版相似度: 0.8861353168289394 知网相似度结果为: 0.7333333333333333
善良 邪恶 词林改进版相似度: 0.9620273470295595 知网相似度结果为: 0.7333333333333333
美丽 丑陋 词林改进版相似度: 1.0 知网相似度结果为: 0.7333333333333333 慷慨 吝啬 词林改进版相似度: 1.0 知网相似度结果为: 0.7333333333333333

以此类推 在形容词的相似度计算上貌似效果差强人意 有什么办法可以优化形容词的计算结果呢

yaleimeng commented 2 years ago

感谢您的反馈,确实存在你说的这种情况。由于测试集中大部分是名词和动词,导致这个问题被掩盖了。 经过查看词林V3的结构,暗淡、 明亮 的编码分别是Eb18B 和 Eb18A。前几位编码都一样,说明这组词表达的意义分支是相同的。经过对比,大部分第5位中A、B互为相反义项,C、D互为相反义项。而A、C和B、D则意义相近。因此,如果要更贴近人的感知,需要进行特殊处理。 比如:遇到同分支的A与B(或C与D)时,如果量化到0~1区间,则sim0可替换为1-sim0。(在某些情形下,反义可能用负数表示,则可替换为-sim0。) 稍后会对代码进行更新。

yaleimeng commented 2 years ago

@SheriffRabbit 已借助反义词典初步完成了反义词计算改进,应该绝大部分反义词都能较好地处理了。 两个词都被词林和知网共同收录。
暗淡 明亮 词林改进版相似度: 0.896 知网相似度结果为: 0.799 使用混合方法计算,相似度为: 0.103 漂亮 难看 词林改进版相似度: 0.886 知网相似度结果为: 0.733 使用混合方法计算,相似度为: 0.113 善良 邪恶 词林改进版相似度: 0.962 知网相似度结果为: 0.733 使用混合方法计算,相似度为: 0.037 美丽 丑陋 词林改进版相似度: 1.0 知网相似度结果为: 0.733 使用混合方法计算,相似度为: 0.0 慷慨 吝啬 词林改进版相似度: 1.0 知网相似度结果为: 0.733 使用混合方法计算,相似度为: 0.0