Open MaoXianXin opened 2 weeks ago
模型: Qwen2-VL-2B-Instruct 显卡: NVIDIA GA103M GeForce RTX 3080 Ti Mobile 推理后端: vllm 镜像: qwenllm/qwenvl:2-cu121
我想知道Qwen2VL多模态的推理速度看起来还是很慢的,这个是正常的吗?
模型: Qwen2-VL-2B-Instruct 显卡: NVIDIA GA103M GeForce RTX 3080 Ti Mobile 推理后端: vllm 镜像: qwenllm/qwenvl:2-cu121
我想知道Qwen2VL多模态的推理速度看起来还是很慢的,这个是正常的吗?