Closed spidercatfly closed 8 months ago
感谢您对我们工作的关注!
您的理解是合理的。本文首先训练Image-to-LLM的projection module,并逐渐将其他模态的X-to-LLM projection也加入到相同的模块当中。 本质上是将一个Image-to-LLM模块进行微调,使其适应X-to-LLM alignment。
此处frozen image encoder作为一个通用的high-level semantic feature extractor,在一定程度上会限制其他模态的学习。可以简单的可以理解为其他模态与image的对齐。然而由于projection module会在多种数据上联合训练,其最终状态可能为一种折中状态,而非单纯的将其他模态对齐到image。
get! 感谢讲解! 确实是很nice的思路
您好,感谢您这项很有启发性的工作。
请问能给出不同专家的职能范围的大概描述吗,感觉不同专家并不是针对不同的模态,而是对image模态有不同侧重的理解,所以导致image和video等与image相近的模态对专家的数量更加敏感。
此外,这种情况的出现是否与encode阶段使用freeze的image encoder,限制了其他模态的学习有关?或者说这是在做一种软对齐,将其他模态与image做对齐是吗?