Qwen2-VL-72B-Instruct在docker镜像qwenllm/qwenvl不支持pipeline parallelism

手里没有4X80G的卡, 在4X40G的卡环境中Qwen2-VL-72B-Instruct显存不够, 通过多node用模型流水来部署, 但是vLLM中不支持, 这个咱们后续后可能支持吗

python3 -m vllm.entrypoints.openai.api_server --port 8000 --model /llm_weights/Qwen2-VL-72B-Instruct --pipeline-parallel-size 2 --tensor-parallel-size 4 --swap-space 16 --gpu-memory-utilization 0.9 --dtype auto --served-model-name Qwen2-VL-72B-Instruct
NotImplementedError: Pipeline parallelism is only supported for the following  architectures: ['AquilaForCausalLM', 'AquilaModel', 'DeepseekV2ForCausalLM', 'GPT2LMHeadModel', 'InternLM2ForCausalLM', 'InternLMForCausalLM', 'InternVLChatModel', 'JAISLMHeadModel', 'LlamaForCausalLM', 'LLaMAForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'NemotronForCausalLM', 'Phi3ForCausalLM', 'Qwen2ForCausalLM', 'Qwen2MoeForCausalLM', 'QWenLMHeadModel']

QwenLM / Qwen2-VL

Qwen2-VL-72B-Instruct在docker镜像qwenllm/qwenvl不支持pipeline parallelism #261