Open hello-carry opened 1 week ago
居然还有人有同样的需求。我用 vLLM 这样拆分部署过。
我的目标是: 将Qwen2_VL拆分为 Vit_model 和 LLM_model 两个独立的模型,分别将它们部署到不同的 Triton 服务器中。 使用 Triton 的 Ensemble 模式,将这两个模型串联起来,实现与原始 Qwen2_VL模型相同的功能。 在推理过程中,先使用 Vit_model 处理图像,然后将生成的视觉特征传递给 LLM_model,最终生成文本输出。
我也是,我想知道怎么通过Input_embeds生成完整句子
欢迎参考此仓库Native-LLM-for-Android。它将视觉和文本组件拆分为多个ONNX模型,最终部署在Android设备上。您可以根据实时需要, 启用或禁用视觉功能。
我的目标是: 将Qwen2_VL拆分为 Vit_model 和 LLM_model 两个独立的模型,分别将它们部署到不同的 Triton 服务器中。 使用 Triton 的 Ensemble 模式,将这两个模型串联起来,实现与原始 Qwen2_VL模型相同的功能。 在推理过程中,先使用 Vit_model 处理图像,然后将生成的视觉特征传递给 LLM_model,最终生成文本输出。