yanqiangmiffy / sentence-similarity

问题句子相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。
369 stars 90 forks source link

有关distance计算出来后得疑问 #5

Open yanhan19940405 opened 5 years ago

yanhan19940405 commented 5 years ago

你好,我看了您得源码。既然模型定义输入两个问题对[left,right],输出的是经过隐藏层的曼哈顿距离distance,为什么可以直接用文本相似的标签Y作为模型训练的label呢?具体distance与标签y是如何关联起来的呢?麻烦指点下,谢谢

Liuyingnan0704 commented 5 years ago

我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗?曼哈顿也好,余弦也好,既然trainset的label=1,我们就认为这两个句子是绝对相似的啊。。没什么问题。。

yanhan19940405 commented 5 years ago

谢谢,已经理解了,这是按照回归的思想做的哇

---原始邮件--- 发件人: "Liuyingnan0704"notifications@github.com 发送时间: 2019年8月15日(星期四) 下午4:19 收件人: "yanqiangmiffy/sentence-similarity"sentence-similarity@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Forever"1257157255@qq.com; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5)

我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗?曼哈顿也好,余弦也好,既然trainset的label=1,我们就认为这两个句子是绝对相似的啊。。没什么问题。。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

Liuyingnan0704 commented 5 years ago

我有一个问题,训练完之后的验证,作者设置的多少的阈值呢? 就是大于多少,我们认为是1呢。。 还有就是,关于evalute.py最后得到的y,这个应该是验证集根据模型计算出的数据,我执行了两次,为什么两次的出来的结果不一样呢。。

Liuyingnan0704 commented 5 years ago

发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。

yanhan19940405 commented 5 years ago

我的理解是两种思路一种是分类器,不需要最后那层相似度计算,直接分类。另一种是有相似度量,那这就是预测任务。初始标签0或者1表示认为标定相似度值

---原始邮件--- 发件人: "Liuyingnan0704"notifications@github.com 发送时间: 2019年8月15日(星期四) 下午5:39 收件人: "yanqiangmiffy/sentence-similarity"sentence-similarity@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Forever"1257157255@qq.com; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5)

发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

sixmilesroad commented 4 years ago

发现test也好,dev也好,并没有label啊。。一开始还在想,这test-acc是怎么测的。。去数据集网站才看到,是后来公布的测试集label(一个csv文件),根据数据来看是1w对的那个dev集,并不是testset的label,而且,是1w对的label都是0。。如果我说的对的话,那为什么每次evalute的结果都是不一样的呢?相似度的阈值时多少呢(大于多少认为是1呢)?。。等待作者解答。。 老哥你现在知道标准了吗