如何调用Triton Inference Server的接口？

songquanpeng / one-api

OpenAI 接口管理 & 分发系统，支持 Azure、Anthropic Claude、Google PaLM 2 & Gemini、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元，可用于二次分发管理 key，仅单可执行文件，已打包好 Docker 镜像，一键部署，开箱即用. OpenAI key management & redistribution system, using a single API for all LLMs, and features an English UI.

MIT License

19.24k stars 4.3k forks source link

例行检查

[] 我已确认目前没有类似 issue
[] 我已确认我已升级到最新版本
[] 我已完整查看过项目 README，已确定现有版本无法满足需求
[] 我理解并愿意跟进此 issue，协助测试和提供反馈
[] 我理解并认可上述内容，并理解项目维护者精力有限，不遵循规则的 issue 可能会被无视或直接关闭

功能描述 Triton Inference Server服务启动后，是在8000端口 curl -X POST localhost:8000/v2/models/vllm_model/generate \ -d '{"text_input": "What is Triton Inference Server?", "parameters": {"stream": false, "temperature": 0}}'

应用场景 one-api应该如何调用？

songquanpeng / one-api

如何调用Triton Inference Server的接口？ #1215