在一台服务器上，开多个服务，推理速度上不去

modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

Other

6.77k stars 717 forks source link

求大神帮忙！！！！问题描述：我的服务器上有2台4090显卡，我开一个FunASR推理服务，RTF能到1000，我开启2个服务是，RTF能到2000。此时，CPU没满，显卡的显存和计算单元都没有满，然后IO，网卡。。。都没有满。但是我开到第三个服务时，RTF还只能到2000左右。另外，我是走Nginx分发，配置没有问题，能上量。我的CPU是80C的。使用的服务是：使用的官方的GPU镜像服务：https://github.com/modelscope/FunASR/blob/main/runtime/docs/benchmark_libtorch_cpp.md 使用的模型是：speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-torchscript

此外，我对服务和CPU做了绑核操作，让其服务质检不收干扰。使用推理的录音，都是30分钟左右的录音。推理时，相关性能监控如下：

![Uploading 2.png…]()

modelscope / FunASR

在一台服务器上，开多个服务，推理速度上不去 #2062