songquanpeng / one-api

OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2 & Gemini、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用. OpenAI key management & redistribution system, using a single API for all LLMs, and features an English UI.
https://openai.justsong.cn/
MIT License
16.06k stars 3.73k forks source link

本地Qwen2-72B-Instruct-GPTQ-Int8模型,stream=true情况下无返回 #1571

Open ludevica opened 6 days ago

ludevica commented 6 days ago

例行检查

问题描述 本地Qwen2-72B-Instruct-GPTQ-Int8模型,stream=true情况下无返回,stream=false能正常返回。 换gpt-3.5-tubo,两种场景都可以返回。 复现步骤 oneapi配置的gpt-3.5-turbo curl --location '10.81.1.66:3001/v1/chat/completions' \ --header 'Content-Type: application/json' \ --header 'Accept: text/event-stream' \ --header 'Authorization: Bearer sk-dyjZYJ8xdzcFPp8y5597E57eA5354a808bE82dC4D1982515' \ --data '{ "model": "gpt-3.5-turbo", "temperature": 1, "max_tokens": 512, "stream": true, "messages": [ { "role": "user", "content": "1+98等于几" } ] }'

oneapi配置的qwen2 curl --location '10.81.1.66:3001/v1/chat/completions' \ --header 'Content-Type: application/json' \ --header 'Accept: text/event-stream' \ --header 'Authorization: Bearer sk-dyjZYJ8xdzcFPp8y5597E57eA5354a808bE82dC4D1982515' \ --data '{ "model": "qwen2-72b-local", "stream": true, "messages": [ { "role": "user", "content": "1+98等于几" } ] }'

预期结果 都能流式正常返回 相关截图 image 上图是不通过oneapi,直接访问模型,能正常流式输出,结果如下: image image 上图:通过onenapi,流式访问本地qwen模型,无返回内容

image 上图通过oneapi访问gpt-3.5-turbo,能正常返回,如下图: image

如果没有的话,请删除此节。