josStorer / RWKV-Runner

A RWKV management and startup tool, full automation, only 8MB. And provides an interface compatible with the OpenAI API. RWKV is a large language model that is fully open source and available for commercial use.
https://www.rwkv.com
MIT License
5.07k stars 484 forks source link

请教GPU负载均衡的问题 #346

Open mystery3021 opened 3 months ago

mystery3021 commented 3 months ago

请教个问题,我的服务器上有3张nvidia rtx4090卡,每张卡24G的GPU内存,每张卡的内存足够加载得了7B的模型用来推理, 我怎么让这个3张卡能有对外提供服务负载均衡的能力?

josStorer commented 3 months ago

目前本项目的api服务没有自带的负载均衡, 只能你分别在三张卡上, 起三个服务, 用不同的端口, 然后再做一个反向代理, 调用/switch-model载入模型时, strategy参数可以使用cuda:0 fp16, cuda:1 fp16, cuda:2 fp16分别在三张卡上载入

mystery3021 commented 3 months ago

目前本项目的api服务没有自带的负载均衡, 只能你分别在三张卡上, 起三个服务, 用不同的端口, 然后再做一个反向代理, 调用/switch-model载入模型时, strategy参数可以使用cuda:0 fp16, cuda:1 fp16, cuda:2 fp16分别在三张卡上载入

好的,多谢,我使用nginx反向代理一下。