THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型
Apache License 2.0
4.74k stars 385 forks source link

能支持一下openai的非vllm版本的吗 #507

Closed levorge closed 1 month ago

levorge commented 1 month ago

Feature request / 功能建议

提供非vllm版openai,内存小的可以量化加载模型,vllm不支持int4精度

Motivation / 动机

暂无

Your contribution / 您的贡献

暂无

levorge commented 1 month ago

或者请教下,openai_api_server.py中如何int4精度使用模型,目前内存不太够,启动就报oom

zhipuch commented 1 month ago

INT4精度下模型表现不算很好,暂时不会提供,composite_demo/src/clients有不同启动方式,可以根据自己需要更改

levorge commented 1 month ago

测试了下上下文效果要比chatglm3好很多,我主要用来做知识库使用,chatglm3的上下文效果太不稳定了