采用vllm推理加速的量化问题

BlackHandsomeLee commented 10 months ago

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
[X] 我已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案。
[X] 第三方插件问题：例如llama.cpp、LangChain、text-generation-webui等，同时建议到对应的项目中查找解决方案。

问题类型

模型量化和部署

基础模型

Chinese-Alpaca-2 (7B/13B)

操作系统

Linux

详细描述问题

# 请在此处粘贴运行代码（请粘贴在本代码块里）

我的目标：通过把模型量化为8位、6位和4位，并采用vllm引擎给模型推理加速。问题：我已经阅读过vllm的官方文档，官方文档里面采用"AWQ"和"SqueezeLLM"进行量化，但只支持4位量化，不支持其他位数。我想请教一下有哪些方法可以量化Chinese-LLaMA-Alpaca-2并适用于vllm引擎给模型推理加速

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况（请粘贴在本代码块里）

运行日志或截图

# 请在此处粘贴运行日志（请粘贴在本代码块里）

ymcui commented 9 months ago

支持的量化方法请以vLLM官方文档为准。虽然类似llama.cpp等工具支持更丰富的量化选项，但并不支持vLLM加速。

BlackHandsomeLee commented 9 months ago

支持的量化方法请以vLLM官方文档为准。虽然类似llama.cpp等工具支持更丰富的量化选项，但并不支持vLLM加速。

感谢您的回复

tkone2018 commented 8 months ago

@ymcui 请问下可以将量化后的模型用于vllm吗

ymcui / Chinese-LLaMA-Alpaca-2

采用vllm推理加速的量化问题 #399