Closed sfyumi closed 3 months ago
一念目前对多模态模型的支持方式是作为多模态模型的一个环节来使用。 按照Efficient Multimodal Large Language Models:A Survey 中figure3的结构,由用户自行调用多模态encoder生成visual token,然后textual token拼接后调用一念。 另外,一念还提供token embedding输出拼接的能力。多模态encoder生成embedding后,与一念text token输出embedding拼接在一起。如下图所示
多谢
比如 MiniCPM-V