期待能出个基于simcse的中文预训练模型

godfatherzzx commented 3 years ago

+1

bojone commented 3 years ago

大家要搞清楚一个逻辑。

这里（ https://kexue.fm/archives/8348 ）是显示simcse能带来一定的效果提升，但要注意，这个效果提升是用测评数据的数据集来微调过的（用了测评数据的句子，没有用标签）。

也就是说，simcse虽然是无监督，但它需要领域内的无标签语料来训练才行，而且训练结果也显示了，并不是数据越多越好，也不是训练步数越多越好。

用通用领域的语料训练simcse，我不是没试过，但是效果非常一般，仅仅比bert取first-last-avg pooling好点，远远不如已经开源的simbert、roformer-sim，所以对于想用现成的、效果比较好的相似度模型的读者来说，放出simcse预训练模型是毫无意义的，还不如用simbert、roformer-sim，更不如用最新的roformer-sim-ft（ https://kexue.fm/archives/8541 ）

shiwl0329 commented 3 years ago

大神，sbert经过了有监督训练之后效果明显优于simcse，中文sbert：https://github.com/renmada/sentence_bert_chinese

bojone / SimCSE

期待能出个基于simcse的中文预训练模型 #2