Closed BlackHandsomeLee closed 9 months ago
模型量化和部署
Chinese-Alpaca-2 (7B/13B)
Linux
# 请在此处粘贴运行代码(请粘贴在本代码块里)
我的目标:通过把模型量化为8位、6位和4位,并采用vllm引擎给模型推理加速。 问题:我已经阅读过vllm的官方文档,官方文档里面采用"AWQ"和"SqueezeLLM"进行量化,但只支持4位量化,不支持其他位数。 我想请教一下有哪些方法可以量化Chinese-LLaMA-Alpaca-2并适用于vllm引擎给模型推理加速
# 请在此处粘贴依赖情况(请粘贴在本代码块里)
# 请在此处粘贴运行日志(请粘贴在本代码块里)
支持的量化方法请以vLLM官方文档为准。 虽然类似llama.cpp等工具支持更丰富的量化选项,但并不支持vLLM加速。
感谢您的回复
@ymcui 请问下可以将量化后的模型用于vllm吗
提交前必须检查以下项目
问题类型
模型量化和部署
基础模型
Chinese-Alpaca-2 (7B/13B)
操作系统
Linux
详细描述问题
我的目标:通过把模型量化为8位、6位和4位,并采用vllm引擎给模型推理加速。 问题:我已经阅读过vllm的官方文档,官方文档里面采用"AWQ"和"SqueezeLLM"进行量化,但只支持4位量化,不支持其他位数。 我想请教一下有哪些方法可以量化Chinese-LLaMA-Alpaca-2并适用于vllm引擎给模型推理加速
依赖情况(代码类问题务必提供)
运行日志或截图