复现llara，遇到模型塌缩

zhaotl4 commented 4 months ago

作者你好，最近在复现你们的工作“Making Large Language Models A Better Foundation For Dense Retrieval”，但是在模型训练过程中发现了模型塌缩，loss降了5个点后就不降了，同时对所有句子编码后的embedding，计算相似度几乎为1。想问一下在处理ebar和ebae两个任务的label的时候是否进行了一些特殊处理呢？我的理解是句子中常见的高频词会影响llm对句子的理解，导致这种塌缩现象，不知道你们是如何解决的？

545999961 commented 4 months ago

会去除掉句子中的停用词，同时训练的时候也会带有自回归的loss

zhaotl4 commented 4 months ago

感谢作者的回复！我再按照上述建议修改下代码

twangnyc commented 4 months ago

我们也在复现这个工作，请问你们有做过如果不使用自回归loss，模型的表现吗？会有坍缩的问题吗？感谢🙏

zhaotl4 commented 4 months ago

会的，只用论文里的bow 的loss就出现模型塌缩了

FlagOpen / FlagEmbedding

复现llara，遇到模型塌缩 #538