pcg-mlp / KsanaLLM

Other
282 stars 29 forks source link

有计划支持多模态大模型吗? #18

Closed sfyumi closed 3 months ago

sfyumi commented 3 months ago

比如 MiniCPM-V

pcg-mlp commented 3 months ago

一念目前对多模态模型的支持方式是作为多模态模型的一个环节来使用。 按照Efficient Multimodal Large Language Models:A Survey 中figure3的结构,由用户自行调用多模态encoder生成visual token,然后textual token拼接后调用一念。 另外,一念还提供token embedding输出拼接的能力。多模态encoder生成embedding后,与一念text token输出embedding拼接在一起。如下图所示

多模态embedding拼接
sfyumi commented 3 months ago

多谢