关于专家的职能 - Githubissues

spidercatfly commented 8 months ago

您好，感谢您这项很有启发性的工作。

请问能给出不同专家的职能范围的大概描述吗，感觉不同专家并不是针对不同的模态，而是对image模态有不同侧重的理解，所以导致image和video等与image相近的模态对专家的数量更加敏感。

此外，这种情况的出现是否与encode阶段使用freeze的image encoder，限制了其他模态的学习有关？或者说这是在做一种软对齐，将其他模态与image做对齐是吗？

csuhan commented 8 months ago

感谢您对我们工作的关注！

您的理解是合理的。本文首先训练Image-to-LLM的projection module，并逐渐将其他模态的X-to-LLM projection也加入到相同的模块当中。本质上是将一个Image-to-LLM模块进行微调，使其适应X-to-LLM alignment。

此处frozen image encoder作为一个通用的high-level semantic feature extractor，在一定程度上会限制其他模态的学习。可以简单的可以理解为其他模态与image的对齐。然而由于projection module会在多种数据上联合训练，其最终状态可能为一种折中状态，而非单纯的将其他模态对齐到image。

spidercatfly commented 8 months ago

get! 感谢讲解！确实是很nice的思路

csuhan / OneLLM

关于专家的职能 #18