Closed ArlanCooper closed 6 months ago
- transformers的多卡并行推理是原始的model parallel,每时只有一个卡在工作,比单卡要慢的。
- auto-gptq安装可能有问题,没匹配到kernel。 针对问题1,我这边可以尝试一下单卡; 针对问题2,auto-gptq安装可能有问题是指?也就是说,需要通过
from auto_gptq import AutoGPTQForCausalLM model = AutoGPTQForCausalLM.from_quantized( "/data/share/rwq/Qwen-7B-Chat-Int4", device="cuda:1", trust_remote_code=True, use_safetensors=True, use_flash_attn=use_flash_attn ).eval()
读入模型,速度会快一些吗?
- transformers的多卡并行推理是原始的model parallel,每时只有一个卡在工作,比单卡要慢的。
- auto-gptq安装可能有问题,没匹配到kernel。
我这边使用单卡试了一下,也还是很慢:
pred:1
config.min_length:2049
Average generate speed (tokens/s): 0.6753895362379109
GPU Memory cost: 49.416122913360596GB
Experiment setting:
seed = 1024
max_experiment_times = 1
context_length_per_experiment = 1
generate_length_per_experiment = 2048
use_flash_attn = False
quant_type = int4
没快多少
我也碰到了同样的问题,请问有解决吗? 我的显卡是Quadro M5000 8G*2张,推理速度是0.5tokens/s
我在Qwen-1.5也遇到同样的问题,使用https://github.com/AutoGPTQ/AutoGPTQ/blob/main/docs/INSTALLATION.md 这个链接下对应的auto-gptq版本(选择对应的cuda和pytorch版本)解决此问题
我在Qwen-1.5也遇到同样的问题,使用https://github.com/AutoGPTQ/AutoGPTQ/blob/main/docs/INSTALLATION.md 这个链接下对应的auto-gptq版本(选择对应的cuda和pytorch版本)解决此问题
好的,感谢,我试一下
我在Qwen-1.5也遇到同样的问题,使用https://github.com/AutoGPTQ/AutoGPTQ/blob/main/docs/INSTALLATION.md 这个链接下对应的auto-gptq版本(选择对应的cuda和pytorch版本)解决此问题
好的,感谢,我试一下
您好,请问解决了吗?
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
当前行为 | Current Behavior
测试结果:
官方给到的速度是11.32tokens/s, 而我这边测试的,速度就是0.5636905039032049tokens/s
请问一下原因,我这边使用的是3块A100 80g的卡。
期望行为 | Expected Behavior
No response
复现方法 | Steps To Reproduce
No response
运行环境 | Environment
备注 | Anything else?
No response