有关distance计算出来后得疑问

yanhan19940405 commented 5 years ago

你好，我看了您得源码。既然模型定义输入两个问题对[left,right]，输出的是经过隐藏层的曼哈顿距离distance，为什么可以直接用文本相似的标签Y作为模型训练的label呢？具体distance与标签y是如何关联起来的呢？麻烦指点下，谢谢

Liuyingnan0704 commented 5 years ago

我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗？曼哈顿也好，余弦也好，既然trainset的label=1，我们就认为这两个句子是绝对相似的啊。。没什么问题。。

yanhan19940405 commented 5 years ago

谢谢，已经理解了，这是按照回归的思想做的哇

---原始邮件--- 发件人: "Liuyingnan0704"notifications@github.com 发送时间: 2019年8月15日(星期四) 下午4:19 收件人: "yanqiangmiffy/sentence-similarity"sentence-similarity@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Forever"1257157255@qq.com; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5)

我们训练的目的不就是为了让测试集中label=1的两个句子相似度变高吗？曼哈顿也好，余弦也好，既然trainset的label=1，我们就认为这两个句子是绝对相似的啊。。没什么问题。。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

Liuyingnan0704 commented 5 years ago

我有一个问题，训练完之后的验证，作者设置的多少的阈值呢？就是大于多少，我们认为是1呢。。还有就是，关于evalute.py最后得到的y，这个应该是验证集根据模型计算出的数据，我执行了两次，为什么两次的出来的结果不一样呢。。

Liuyingnan0704 commented 5 years ago

发现test也好，dev也好，并没有label啊。。一开始还在想，这test-acc是怎么测的。。去数据集网站才看到，是后来公布的测试集label（一个csv文件），根据数据来看是1w对的那个dev集，并不是testset的label，而且，是1w对的label都是0。。如果我说的对的话，那为什么每次evalute的结果都是不一样的呢？相似度的阈值时多少呢（大于多少认为是1呢）？。。等待作者解答。。

yanhan19940405 commented 5 years ago

我的理解是两种思路一种是分类器，不需要最后那层相似度计算，直接分类。另一种是有相似度量，那这就是预测任务。初始标签0或者1表示认为标定相似度值

---原始邮件--- 发件人: "Liuyingnan0704"notifications@github.com 发送时间: 2019年8月15日(星期四) 下午5:39 收件人: "yanqiangmiffy/sentence-similarity"sentence-similarity@noreply.github.com; 抄送: "Author"author@noreply.github.com;"Forever"1257157255@qq.com; 主题: Re: [yanqiangmiffy/sentence-similarity] 有关distance计算出来后得疑问 (#5)

发现test也好，dev也好，并没有label啊。。一开始还在想，这test-acc是怎么测的。。去数据集网站才看到，是后来公布的测试集label（一个csv文件），根据数据来看是1w对的那个dev集，并不是testset的label，而且，是1w对的label都是0。。如果我说的对的话，那为什么每次evalute的结果都是不一样的呢？相似度的阈值时多少呢（大于多少认为是1呢）？。。等待作者解答。。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

sixmilesroad commented 4 years ago

发现test也好，dev也好，并没有label啊。。一开始还在想，这test-acc是怎么测的。。去数据集网站才看到，是后来公布的测试集label（一个csv文件），根据数据来看是1w对的那个dev集，并不是testset的label，而且，是1w对的label都是0。。如果我说的对的话，那为什么每次evalute的结果都是不一样的呢？相似度的阈值时多少呢（大于多少认为是1呢）？。。等待作者解答。。老哥你现在知道标准了吗

yanqiangmiffy / sentence-similarity

有关distance计算出来后得疑问 #5