ymcui / Chinese-LLaMA-Alpaca

中文LLaMA&Alpaca大语言模型+本地CPU/GPU训练部署 (Chinese LLaMA & Alpaca LLMs)
https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki
Apache License 2.0
17.98k stars 1.84k forks source link

Qwen72(int4)版本的 执行server为什么会这么慢呀? #873

Closed chenanlin2000 closed 7 months ago

chenanlin2000 commented 7 months ago

提交前必须检查以下项目

问题类型

效果问题

基础模型

None

操作系统

Linux

详细描述问题

# 请在此处粘贴运行代码(如没有可删除该代码块)

CUDA_VISIBLE_DEVICES=6,7 python3 -m llama_cpp.server --model /home/public/models/cppmodels/qwen72b-chat-q4_0.gguf --n_gpu_layers 100 --port 8080 --host 0.0.0.0

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况

运行日志或截图

image

# 请在此处粘贴运行日志
ymcui commented 7 months ago

你走错地方了,应该去Qwen的项目提问。