Duxiaoman-DI / XuanYuan

轩辕:度小满中文金融对话大模型
1.07k stars 97 forks source link

vllm暂时不支持量化模型 #10

Closed Alsac closed 11 months ago

Alsac commented 1 year ago

请问什么时候支持4bit版量化模型的加速,目前的量化模型输出极慢,难以使用,谢谢

Duxiaomantech commented 1 year ago

你好,这个需要根据具体的推理框架来支持。现阶段,您可以使用TGI框架来加速4bit的推理