Open lonngxiang opened 3 years ago
大家要搞清楚一个逻辑。
这里( https://kexue.fm/archives/8348 )是显示simcse能带来一定的效果提升,但要注意,这个效果提升是用测评数据的数据集来微调过的(用了测评数据的句子,没有用标签)。
也就是说,simcse虽然是无监督,但它需要领域内的无标签语料来训练才行,而且训练结果也显示了,并不是数据越多越好,也不是训练步数越多越好。
用通用领域的语料训练simcse,我不是没试过,但是效果非常一般,仅仅比bert取first-last-avg pooling好点,远远不如已经开源的simbert、roformer-sim,所以对于想用现成的、效果比较好的相似度模型的读者来说,放出simcse预训练模型是毫无意义的,还不如用simbert、roformer-sim,更不如用最新的roformer-sim-ft( https://kexue.fm/archives/8541 )
大神,sbert经过了有监督训练之后效果明显优于simcse,中文sbert:https://github.com/renmada/sentence_bert_chinese
+1