modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
6.77k stars 717 forks source link

在一台服务器上,开多个服务,推理速度上不去 #2062

Open xiaoheiNLP opened 1 month ago

xiaoheiNLP commented 1 month ago

求大神帮忙!!!! 问题描述: 我的服务器上有2台4090显卡,我开一个FunASR推理服务,RTF能到1000,我开启2个服务是,RTF能到2000。此时,CPU没满,显卡的显存和计算单元都没有满,然后IO,网卡。。。都没有满。但是我开到第三个服务时,RTF还只能到2000左右。 另外,我是走Nginx分发,配置没有问题,能上量。我的CPU是80C的。 使用的服务是:使用的官方的GPU镜像服务:https://github.com/modelscope/FunASR/blob/main/runtime/docs/benchmark_libtorch_cpp.md 使用的模型是:speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-torchscript

此外,我对服务和CPU做了绑核操作,让其服务质检不收干扰。使用推理的录音,都是30分钟左右的录音。 推理时,相关性能监控如下: 1

![Uploading 2.png…]()

xiaoheiNLP commented 1 month ago

镜像内,启动服务的参数 --decoder-thread-num 20 --model-thread-num 1 --io-thread-num 1 --batch-size 60

walnutsandwich commented 1 month ago

楼主,第二张图片加载不出来

xiaoheiNLP commented 1 month ago

楼主,第二张图片加载不出来

4
LauraGPT commented 1 month ago

你可以找llm仔细:nginx如何转发多个WebSocket长连接服务