Sense-GVT / SNCSE

SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples
73 stars 10 forks source link

Roberta-base无法复现,下载论文提供的模型无法达到论文报告结果 #4

Closed sunersheng closed 2 years ago

sunersheng commented 2 years ago

Robertabase下载论文提供的模型测试集结果为78.99,少于论文报告的79.23。从头训练只能达到78.3

phoenixsecularbird commented 2 years ago

您好!谢谢关注我们的工作!想先和您确认和对齐一下我们提供的模型的结果:(1)我们又评测了一下,发现与之前结果完全一致;(2)您是否使用了我们的提供的代码和数据进行评测,能否给出详细的评测结果;(3)您是否验证了其他模型如BERT和RoBERTa-large的评测结果;(4)我们使用的pytorch和transformers版本分别为1.8.1+cu102和4.2.1,您是否进行了版本对齐因为从之前SimCSE的结果来看,这二者的版本包括硬件条件对结果均有影响,我们的模型只收到您的反馈,因此不能确定是否会出现类似情况

sunersheng commented 2 years ago

STS12 | STS13 | STS14 | STS15 | STS16 | STSBenchmark | SICKRelatedness | Avg. | +-------+-------+-------+-------+-------+--------------+-----------------+-------+ | 70.07 | 84.16 | 76.46 | 84.47 | 81.76 | 83.01 | 72.99 | 78.99 感谢回复!这是使用论文发布的模型评价的结果Robertabase 其他模型我复现了关于bert的模型,与论文报告基本一致

phoenixsecularbird commented 2 years ago

哦哦,这就不太懂了,看起来差距比较大的是STS12和14,有没有试下pytorch和transformers的版本对齐呢?

sunersheng commented 2 years ago

transformers版本是一致的,讲道理用固定模型评价测试集应该不会有偏差吧?不知道怎么回事自己训练Robertabase就是复现不了,sad。总之感谢感谢!

sunersheng commented 2 years ago

请问你的研究方向是什么,可以交流一波嘛,我是大连理工计算机研二在读

phoenixsecularbird commented 2 years ago

哈哈,没事!可能真的和软硬件都有关系吧,我们也没条件做进一步的实验。之前SimCSE复现的时候大家也是一堆问题,发现和很多东西都有关系,甚至不同的机器结果也有差异好像。大概是因为无监督的训练不太robust吧。我目前已经不做这个方向了,太卷了,而且总体来看前景不明,评测任务的规模太小,而且难点问题(比如说语序和语义的关系问题)一时间没办法解决~

sunersheng commented 2 years ago

确实sad