ymcui / Chinese-LLaMA-Alpaca-2

中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)
Apache License 2.0
7.04k stars 581 forks source link

采用vllm推理加速的量化问题 #399

Closed BlackHandsomeLee closed 9 months ago

BlackHandsomeLee commented 10 months ago

提交前必须检查以下项目

问题类型

模型量化和部署

基础模型

Chinese-Alpaca-2 (7B/13B)

操作系统

Linux

详细描述问题

# 请在此处粘贴运行代码(请粘贴在本代码块里)

我的目标:通过把模型量化为8位、6位和4位,并采用vllm引擎给模型推理加速。 问题:我已经阅读过vllm的官方文档,官方文档里面采用"AWQ"和"SqueezeLLM"进行量化,但只支持4位量化,不支持其他位数。 我想请教一下有哪些方法可以量化Chinese-LLaMA-Alpaca-2并适用于vllm引擎给模型推理加速

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况(请粘贴在本代码块里)

运行日志或截图

# 请在此处粘贴运行日志(请粘贴在本代码块里)
ymcui commented 9 months ago

支持的量化方法请以vLLM官方文档为准。 虽然类似llama.cpp等工具支持更丰富的量化选项,但并不支持vLLM加速。

BlackHandsomeLee commented 9 months ago

支持的量化方法请以vLLM官方文档为准。 虽然类似llama.cpp等工具支持更丰富的量化选项,但并不支持vLLM加速。

感谢您的回复

tkone2018 commented 8 months ago

@ymcui 请问下可以将量化后的模型用于vllm吗