Open silvercherry opened 3 months ago
有点好奇这多种模态一起train有没有可能反而让效果变得更好?
目前在我们的实验中,多种模态一起训练,在每个模态上的loss都会比单模态训练loss更高一些。 有一篇关于基于多模态离散token的LM scaling law的论文,可以参考:https://arxiv.org/abs/2301.03728
有点好奇这多种模态一起train有没有可能反而让效果变得更好?