Closed AlbertBJ closed 2 weeks ago
我看文档,多模态模型这块的部署,都是针对单卡部署的,那如果 单卡太小,如何多卡的 tensor 并行部署
我这边用qwen-vl-chat来测试的,设置可见两张卡,模型可以运行,但是 我看 两张卡上 gpu 显存使用量 不一致啊,是 因为 vit的存在么?
考虑使用lmdeploy进行部署: --infer_backend lmdeploy
--infer_backend lmdeploy
我看文档,多模态模型这块的部署,都是针对单卡部署的,那如果 单卡太小,如何多卡的 tensor 并行部署