Qwen1.5-7B-Chat vLLM 部署调用-速度测试 hf命令错误

datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型，更适合中国宝宝的部署教程

Apache License 2.0

6.14k stars 753 forks source link

Qwen1.5-7B-Chat vLLM 部署调用-速度测试 hf命令错误 #101

Closed ericalduo closed 3 weeks ago

ericalduo commented 2 months ago

vLLM部署测试原始方式（使用 hunggingface 的 transformers 库）的速度：

python benchmark_throughput.py \
    --model /root/autodl-tmp/qwen/Qwen1.5-7B-Chat \
    --backend hf \
    --input-len 64 \
    --output-len 128 \
    --num-prompts 25 \
    --seed 2024 \
    --dtype float16
    --hf_max_batch_size 25

最后两个参数应该为：

--dtype float16 \
--hf-max-batch-size 25

KMnO4-zx commented 1 month ago

好的，收到！