Closed abbydev closed 6 months ago
不要用https://github.com/QwenLM/vllm-gptq。
如果更改了环境,特别是pytorch、xformers、cuda,需要重新编译或安装vllm,并仔细观察,以防vllm又改掉了这些依赖。
官方vllm已经支持GPTQ量化了,README相关部分已经更新。
官方vllm已经支持GPTQ量化了,README相关部分已经更新。
好的,谢谢你,我重新试一下,晚点反馈结果
vllm需要预先分配显存cache block,它这个提示是说这些卡的显存一共能支持12656个token,但模型设置的单个序列长度就超过这个范围了。
这个可以按需要调整为一个小于12656的值,比如传入--max-model-len 12288这样
@jklj077 验证OK,谢谢!
运行环境 | Environment
报错信息
尝试