Replace OpenAI GPT with another LLM in your app by changing a single line of code. Xinference gives you the freedom to use any LLM you need. With Xinference, you're empowered to run inference with any open-source language models, speech recognition models, and multimodal models, whether in the cloud, on-premises, or even on your laptop.
System Info / 系統信息
ubuntu 20.04 python 3.10
相关的其他pip依赖都是通过下述三个命令安装的 pip install "xinference[vllm] pip install "xinference[transformers] pip install sentence-transformers
transformers 4.43.4 transformers-stream-generator 0.0.5 vllm 0.5.5 vllm-flash-attn 2.6.1 xinference 0.14.4.post1
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
Version info / 版本信息
xinference 0.14.4.post1
The command used to start Xinference / 用以启动 xinference 的命令
nohup xinference-local --host 0.0.0.0 --port 49640 --log-level DEBUG &
还用cpu模式,启动着bge-large-zh-v1.5和bge-reranker-v2-m3模型
Reproduction / 复现过程
qwen2-instruct-gptq-7b-Int4 一直用的是vllm推理框架,gptq int4。大部分时间是正常运行的。 如果推理速度正常,这个机器的表现是每秒平均token大约在25左右。
偶发性启动模型后,推理速度表现一直是异常的,推理速度特别慢,每秒平均token大约在0.3左右,且GPU的kv占用只有0.1%,GPU完全没有利用起来;此时如果再用transform框架启动pytorch版本的模型,推理速度大约在5左右。
Expected behavior / 期待表现
vllm的推理速度恢复正常