Open empty2enrich opened 1 month ago
可能是vllm使用的kernel的兼容性问题?
可以尝试使用eager模式启动api看是否还会有同样问题(readme中的demo也是eager模式):在命令行参数中加入--enforce-eager
。
Hi Is the problem be solved?
I used
llm = vllm.LLM( model_name, tensor_parallel_size=4, gpu_memory_utilization=0.85, trust_remote_code=True, dtype="half", enforce_eager=True, enable_lora=True )
and faced the same problem
使用 vllm 启动 openai server 报错。使用官方的 demo 脚本是正常。
启动命令:
python -m vllm.entrypoints.openai.api_server --model /data/huggingface/models--deepseek-ai--DeepSeek-V2-Chat/snapshots/cfa90959d985cd3288fd835519099d9c46fa4842 --tensor-parallel-size 8 --served-model-name deepseek-v2-chat --dtype auto --api-key none --trust-remote-code
error log