bojone / SimCSE

SimCSE在中文任务上的简单实验
591 stars 83 forks source link

期待能出个基于simcse的中文预训练模型 #2

Open lonngxiang opened 3 years ago

godfatherzzx commented 3 years ago

+1

bojone commented 3 years ago

大家要搞清楚一个逻辑。

这里( https://kexue.fm/archives/8348 )是显示simcse能带来一定的效果提升,但要注意,这个效果提升是用测评数据的数据集来微调过的(用了测评数据的句子,没有用标签)。

也就是说,simcse虽然是无监督,但它需要领域内的无标签语料来训练才行,而且训练结果也显示了,并不是数据越多越好,也不是训练步数越多越好。

用通用领域的语料训练simcse,我不是没试过,但是效果非常一般,仅仅比bert取first-last-avg pooling好点,远远不如已经开源的simbert、roformer-sim,所以对于想用现成的、效果比较好的相似度模型的读者来说,放出simcse预训练模型是毫无意义的,还不如用simbert、roformer-sim,更不如用最新的roformer-sim-ft( https://kexue.fm/archives/8541

shiwl0329 commented 3 years ago

大神,sbert经过了有监督训练之后效果明显优于simcse,中文sbert:https://github.com/renmada/sentence_bert_chinese