shell-nlp / gpt_server

gpt_server是一个用于生产级部署LLMs或Embedding的开源框架。
Apache License 2.0
98 stars 11 forks source link

【请教】大佬请教一下config.yaml #16

Open taurusduan opened 4 days ago

taurusduan commented 4 days ago

大佬,之前看到这个项目一直在测试模型,我这边目前使用的是llamacpp,因为有公司这边的服务器,所以是用cpu的,速度10t/s。公司内部用足够了。

知识库用到的模型: Qwen2.5-14B:q4 bge-reranker-base Dmeta-embedding-zh-small

大佬这是我这边使用的模型,不知道能不能改成使用cpu的,非常感谢。

后台启动 nohup sh start.sh > gptserver.log &

openai_api_server

serve_args: host: 0.0.0.0 port: 8082 controller_address: http://localhost:21001

api_keys: 111,222

controller

controller_args: host: 0.0.0.0 port: 21001 dispatch_method: shortest_queue # lottery shortest_queue

model worker

model_worker_args: host: 0.0.0.0 controller_address: http://localhost:21001

models:

shell-nlp commented 3 days ago

cpu 目前主流的推理框架 用代码的方式运行目前都比较麻烦, 我研究研究

taurusduan commented 3 days ago

cpu 目前主流的推理框架 用代码的方式运行目前都比较麻烦, 我研究研究

公司商业化肯定还是要GPU,但是GPU的显存太贵了,大模型自己测试下来怎么也要20B左右的才能达到3.5的水平,但要运行多个模型这个就要上多卡了。一张4090的价格买epyc9534配合大内存,可以跑72b的大模型,速度和阿里官方的差不多,解决了平民能不能用大模型的问题。尤其是可以平替gpt-4的deepseek,moe+mla理论上非常适合cpu跑。加油!大哥小弟刚入门,不知道这方面要从哪些学起,想贡献代码,奈何能力有限。。。

shell-nlp commented 2 days ago

cpu 目前主流的推理框架 用代码的方式运行目前都比较麻烦, 我研究研究

公司商业化肯定还是要GPU,但是GPU的显存太贵了,大模型自己测试下来怎么也要20B左右的才能达到3.5的水平,但要运行多个模型这个就要上多卡了。一张4090的价格买epyc9534配合大内存,可以跑72b的大模型,速度和阿里官方的差不多,解决了平民能不能用大模型的问题。尤其是可以平替gpt-4的deepseek,moe+mla理论上非常适合cpu跑。加油!大哥小弟刚入门,不知道这方面要从哪些学起,想贡献代码,奈何能力有限。。。

如果要适配 不同推理后端的话 主要关注 这个 image

比如 想要实现 llma_cpp 后端, 仿照其它的后端 实现一个 llama_cpp 后端就行了

shell-nlp commented 2 days ago

1727344487547 可以加我 微信,方便交流一下