Closed rabum closed 7 months ago
测的是Qwen-72B-Chat-Int4,加载完后卡在这里:
环境配置(几张卡、什么卡、transformers、pytorch、cuda、autogptq版本)请提供下 另外profile.py加载不了量化模型才对,复现脚本提供下
不好意思是能运行的,图上不动就是在计算了
测的是Qwen-72B-Chat-Int4,加载完后卡在这里: