FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
6.16k stars 442 forks source link

复现llara,遇到模型塌缩 #538

Open zhaotl4 opened 4 months ago

zhaotl4 commented 4 months ago

作者你好,最近在复现你们的工作“Making Large Language Models A Better Foundation For Dense Retrieval”,但是在模型训练过程中发现了模型塌缩,loss降了5个点后就不降了,同时对所有句子编码后的embedding,计算相似度几乎为1。想问一下在处理ebar和ebae两个任务的label的时候是否进行了一些特殊处理呢?我的理解是句子中常见的高频词会影响llm对句子的理解,导致这种塌缩现象,不知道你们是如何解决的?

545999961 commented 4 months ago

会去除掉句子中的停用词,同时训练的时候也会带有自回归的loss

zhaotl4 commented 4 months ago

感谢作者的回复!我再按照上述建议修改下代码

twangnyc commented 4 months ago

我们也在复现这个工作,请问你们有做过如果不使用自回归loss,模型的表现吗?会有坍缩的问题吗?感谢🙏

zhaotl4 commented 4 months ago

会的,只用论文里的bow 的loss就出现模型塌缩了