vdogmcgee / SimCSE-Chinese-Pytorch

SimCSE在中文上的复现,有监督+无监督
MIT License
265 stars 48 forks source link

有监督问题的请教 #9

Open zw-SIMM opened 2 years ago

zw-SIMM commented 2 years ago

老哥好,我想请教一下SimCSE有监督的实现,是否其实没有用到1,2,3,4,5的相似度标签?这模型能用于两个文本相似度的预测吗?

vdogmcgee commented 2 years ago

你好 , 有监督的训练中 , sts-b 的数据集确实只用来了计算 spearmanr 系数做模型评估 , 训练的时候用的是 snli 的数据集 , 相当于还是只有相似和不相似的标签 。 最后训练出来的模型 , 在通用的数据集下 , 是可以用于预测文本相似度的 , 如果是特定种类的数据 , 效果不好说 。

zw-SIMM commented 2 years ago

好的,谢谢!

prettyprettyboy commented 2 years ago

请问这个预测的时候怎么给定一个类似nli任务的标签呢?他这个只能求出相似度,相当于还少了一个线性层输出为分类,但是这个分类层由于训练范式的原因又加不上去。

vdogmcgee commented 2 years ago

我理解在预测的时候是通过模型输出句向量 , 通过相似度排序来找到最相近的 , 如果一定要给一个相似或者不相似的标签的话 , 给相似度加一个阈值判定就好了