chatopera / Synonyms

:herb: 中文近义词:聊天机器人,智能问答工具包
https://bot.chatopera.com/
Other
5.03k stars 902 forks source link

相似度计算:横向对比 #33

Closed hailiang-wang closed 6 years ago

hailiang-wang commented 6 years ago

description

https://github.com/yaleimeng/Final_word_Similarity

current

expected

solution

environment

hailiang-wang commented 6 years ago

同义词词林

《同义词词林》是梅家驹等人于1983年编纂而成,现在使用广泛的是 哈工大社会计算与 信息检索研究中心维护的《同义词词林扩展版》,它精细的将中文词汇划分成大类和小类,梳 理了词汇间的关系,同义词词林扩展版包含词语77,343条,其中32,470被以开放数据形式共享。

知网, HowNet

HowNet,也被称为知网,它并不只是一个语义字典,而是一个知识系统,词汇之间的关 系是其一个基本使用场景。知网包含词语8,265条。 国际上对词语相似度算法的评价标准普遍采用 Miller&Charles 发布的英语词对集的人工判定 值。该词对集由十对高度相关、十对中度相关、十对低度相关共 30 个英语词对组成,然后让 38个 受试者对这 30 对进行语义相关度判断,最后取他们的平均值作为人工判定标准 。然后不同近义词 工具也对这些词汇进行相似度评分,与人工判定标准做比较,比如使用皮尔森相关系数。在中文领 域,使用这个词表的翻译版进行中文近义词比较也是常用的办法。

与Synonyms的对比

Synonyms的词表容量是125,792,下面选择一些在同义词词林、知网和Synonyms都存在的词 汇,给出其近似度的对比: 用几个词做了比较,结果如下: image

catqaq commented 2 years ago

hi, 非常棒的工作,非常感谢!我在Final_word_Similarity项目里发现了几个评测集,比如wordsim-240.txt,不过感觉有些case的分数有些偏高,请问这些数据的标注标准是怎样的呢?多个标注者取平均吗? image