有计划支持多模态大模型吗？

sfyumi commented 3 months ago

pcg-mlp commented 3 months ago

一念目前对多模态模型的支持方式是作为多模态模型的一个环节来使用。按照Efficient Multimodal Large Language Models:A Survey 中figure3的结构，由用户自行调用多模态encoder生成visual token，然后textual token拼接后调用一念。另外，一念还提供token embedding输出拼接的能力。多模态encoder生成embedding后，与一念text token输出embedding拼接在一起。如下图所示

sfyumi commented 3 months ago

多谢

pcg-mlp / KsanaLLM

有计划支持多模态大模型吗？ #18