whisper音频特征提取速度优化

TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

Other

1.84k stars 219 forks source link

Open lipku opened 1 month ago

lipku commented 1 month ago

在实时处理中发现，音频特征提取audio_processor.audio2feat的速度跟输入音频数据大小无关，大概都要在200ms左右因为流式处理时，每次输入的音频数据只有一个batch大小，不能太长，所以导致音频特征处理时间占用较大请问这块有没有什么优化措施？

czk32611 commented 4 weeks ago

请问是在什么卡上跑的速度呢？我们在V100上耗时在warm up后小于100ms，耗时和音频长度也会有一点点关系。见https://github.com/TMElyralab/MuseTalk/issues/49 有我们自己的测速

lipku commented 4 weeks ago

是在v100上，主要是跟音频长度无关，如果音频长度小一些能不能缩短一下耗时。另外warmup是怎么做的

czk32611 commented 4 weeks ago

是在v100上，主要是跟音频长度无关，如果音频长度小一些能不能缩短一下耗时。另外warmup是怎么做的

warmup其实就是加载模型后，先推理一下模型。时间应该没这么久，demo的那两个音频都在100ms内。

音频有两个耗时，一个转成mel的耗时，这个和长度有关；另外一个是提取whisper特征的耗时，这个因为会padding，所以和长度无关。可以具体看一下是哪个耗时比较久

lipku commented 3 weeks ago

请问每次最少输入多长的音频效果较好，如果输入太短感觉大部分都被padding了