Qwen72(int4)版本的执行server为什么会这么慢呀？

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
[X] 由于相关依赖频繁更新，请确保按照Wiki中的相关步骤执行
[X] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案
[X] 第三方插件问题：例如llama.cpp、text-generation-webui、LlamaChat等，同时建议到对应的项目中查找解决方案
[X] 模型正确性检查：务必检查模型的SHA256.md，模型不对的情况下无法保证效果和正常运行

问题类型

效果问题

基础模型

None

操作系统

Linux

详细描述问题

# 请在此处粘贴运行代码（如没有可删除该代码块）

CUDA_VISIBLE_DEVICES=6,7 python3 -m llama_cpp.server --model /home/public/models/cppmodels/qwen72b-chat-q4_0.gguf --n_gpu_layers 100 --port 8080 --host 0.0.0.0

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况

运行日志或截图

# 请在此处粘贴运行日志

ymcui / Chinese-LLaMA-Alpaca

Qwen72(int4)版本的执行server为什么会这么慢呀？ #873

提交前必须检查以下项目

问题类型

基础模型

操作系统

详细描述问题

依赖情况（代码类问题务必提供）

运行日志或截图

ymcui / Chinese-LLaMA-Alpaca

Qwen72(int4)版本的 执行server为什么会这么慢呀？ #873

提交前必须检查以下项目

问题类型

基础模型

操作系统

详细描述问题

依赖情况（代码类问题务必提供）

运行日志或截图

Qwen72(int4)版本的执行server为什么会这么慢呀？ #873