datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
Apache License 2.0
6.14k stars 753 forks source link

Qwen1.5-7B-Chat vLLM 部署调用-速度测试 hf命令错误 #101

Closed ericalduo closed 3 weeks ago

ericalduo commented 2 months ago

vLLM部署 测试原始方式(使用 hunggingface 的 transformers 库)的速度:

python benchmark_throughput.py \
    --model /root/autodl-tmp/qwen/Qwen1.5-7B-Chat \
    --backend hf \
    --input-len 64 \
    --output-len 128 \
    --num-prompts 25 \
    --seed 2024 \
    --dtype float16
    --hf_max_batch_size 25

最后两个参数应该为:

--dtype float16 \
--hf-max-batch-size 25
KMnO4-zx commented 1 month ago

好的,收到!