Closed levorge closed 1 month ago
提供非vllm版openai,内存小的可以量化加载模型,vllm不支持int4精度
暂无
或者请教下,openai_api_server.py中如何int4精度使用模型,目前内存不太够,启动就报oom
INT4精度下模型表现不算很好,暂时不会提供,composite_demo/src/clients有不同启动方式,可以根据自己需要更改
测试了下上下文效果要比chatglm3好很多,我主要用来做知识库使用,chatglm3的上下文效果太不稳定了
Feature request / 功能建议
提供非vllm版openai,内存小的可以量化加载模型,vllm不支持int4精度
Motivation / 动机
暂无
Your contribution / 您的贡献
暂无