Roberta-base无法复现，下载论文提供的模型无法达到论文报告结果

Sense-GVT / SNCSE

SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples

73 stars 10 forks source link

Roberta-base无法复现，下载论文提供的模型无法达到论文报告结果 #4

Closed sunersheng closed 2 years ago

sunersheng commented 2 years ago

Robertabase下载论文提供的模型测试集结果为78.99，少于论文报告的79.23。从头训练只能达到78.3

phoenixsecularbird commented 2 years ago

您好！谢谢关注我们的工作！想先和您确认和对齐一下我们提供的模型的结果：（1）我们又评测了一下，发现与之前结果完全一致；（2）您是否使用了我们的提供的代码和数据进行评测，能否给出详细的评测结果；（3）您是否验证了其他模型如BERT和RoBERTa-large的评测结果；（4）我们使用的pytorch和transformers版本分别为1.8.1+cu102和4.2.1，您是否进行了版本对齐因为从之前SimCSE的结果来看，这二者的版本包括硬件条件对结果均有影响，我们的模型只收到您的反馈，因此不能确定是否会出现类似情况

sunersheng commented 2 years ago

STS12 | STS13 | STS14 | STS15 | STS16 | STSBenchmark | SICKRelatedness | Avg. | +-------+-------+-------+-------+-------+--------------+-----------------+-------+ | 70.07 | 84.16 | 76.46 | 84.47 | 81.76 | 83.01 | 72.99 | 78.99 感谢回复！这是使用论文发布的模型评价的结果Robertabase 其他模型我复现了关于bert的模型，与论文报告基本一致

phoenixsecularbird commented 2 years ago

哦哦，这就不太懂了，看起来差距比较大的是STS12和14，有没有试下pytorch和transformers的版本对齐呢？

sunersheng commented 2 years ago

transformers版本是一致的，讲道理用固定模型评价测试集应该不会有偏差吧？不知道怎么回事自己训练Robertabase就是复现不了，sad。总之感谢感谢！

sunersheng commented 2 years ago

请问你的研究方向是什么，可以交流一波嘛，我是大连理工计算机研二在读

phoenixsecularbird commented 2 years ago

哈哈，没事！可能真的和软硬件都有关系吧，我们也没条件做进一步的实验。之前SimCSE复现的时候大家也是一堆问题，发现和很多东西都有关系，甚至不同的机器结果也有差异好像。大概是因为无监督的训练不太robust吧。我目前已经不做这个方向了，太卷了，而且总体来看前景不明，评测任务的规模太小，而且难点问题（比如说语序和语义的关系问题）一时间没办法解决~

sunersheng commented 2 years ago

确实sad