能支持一下openai的非vllm版本的吗

THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

Apache License 2.0

4.74k stars 385 forks source link

Closed levorge closed 1 month ago

levorge commented 1 month ago

提供非vllm版openai，内存小的可以量化加载模型，vllm不支持int4精度

暂无

暂无

levorge commented 1 month ago

或者请教下，openai_api_server.py中如何int4精度使用模型，目前内存不太够，启动就报oom

zhipuch commented 1 month ago

INT4精度下模型表现不算很好，暂时不会提供，composite_demo/src/clients有不同启动方式，可以根据自己需要更改

levorge commented 1 month ago

测试了下上下文效果要比chatglm3好很多，我主要用来做知识库使用，chatglm3的上下文效果太不稳定了