有监督问题的请教

vdogmcgee / SimCSE-Chinese-Pytorch

SimCSE在中文上的复现，有监督+无监督

MIT License

265 stars 48 forks source link

有监督问题的请教 #9

Open zw-SIMM opened 2 years ago

zw-SIMM commented 2 years ago

老哥好，我想请教一下SimCSE有监督的实现，是否其实没有用到1，2，3，4，5的相似度标签？这模型能用于两个文本相似度的预测吗？

vdogmcgee commented 2 years ago

你好 , 有监督的训练中 , sts-b 的数据集确实只用来了计算 spearmanr 系数做模型评估 , 训练的时候用的是 snli 的数据集 , 相当于还是只有相似和不相似的标签。最后训练出来的模型 , 在通用的数据集下 , 是可以用于预测文本相似度的 , 如果是特定种类的数据 , 效果不好说。

zw-SIMM commented 2 years ago

好的，谢谢！

prettyprettyboy commented 2 years ago

请问这个预测的时候怎么给定一个类似nli任务的标签呢？他这个只能求出相似度，相当于还少了一个线性层输出为分类，但是这个分类层由于训练范式的原因又加不上去。

vdogmcgee commented 2 years ago

我理解在预测的时候是通过模型输出句向量 , 通过相似度排序来找到最相近的 , 如果一定要给一个相似或者不相似的标签的话 , 给相似度加一个阈值判定就好了