Closed ericalduo closed 3 weeks ago
vLLM部署 测试原始方式(使用 hunggingface 的 transformers 库)的速度:
python benchmark_throughput.py \ --model /root/autodl-tmp/qwen/Qwen1.5-7B-Chat \ --backend hf \ --input-len 64 \ --output-len 128 \ --num-prompts 25 \ --seed 2024 \ --dtype float16 --hf_max_batch_size 25
最后两个参数应该为:
--dtype float16 \ --hf-max-batch-size 25
好的,收到!
vLLM部署 测试原始方式(使用 hunggingface 的 transformers 库)的速度:
最后两个参数应该为: