TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting
Other
1.84k stars 219 forks source link

whisper音频特征提取速度优化 #110

Open lipku opened 1 month ago

lipku commented 1 month ago

在实时处理中发现,音频特征提取audio_processor.audio2feat的速度跟输入音频数据大小无关,大概都要在200ms左右 因为流式处理时,每次输入的音频数据只有一个batch大小,不能太长,所以导致音频特征处理时间占用较大 请问这块有没有什么优化措施?

czk32611 commented 4 weeks ago

请问是在什么卡上跑的速度呢?我们在V100上耗时在warm up后小于100ms,耗时和音频长度也会有一点点关系。见https://github.com/TMElyralab/MuseTalk/issues/49 有我们自己的测速

lipku commented 4 weeks ago

是在v100上,主要是跟音频长度无关,如果音频长度小一些能不能缩短一下耗时。 另外warmup是怎么做的

czk32611 commented 4 weeks ago

是在v100上,主要是跟音频长度无关,如果音频长度小一些能不能缩短一下耗时。 另外warmup是怎么做的

warmup其实就是加载模型后,先推理一下模型。时间应该没这么久,demo的那两个音频都在100ms内。

音频有两个耗时,一个转成mel的耗时,这个和长度有关;另外一个是提取whisper特征的耗时,这个因为会padding,所以和长度无关。可以具体看一下是哪个耗时比较久

lipku commented 3 weeks ago

请问每次最少输入多长的音频效果较好,如果输入太短感觉大部分都被padding了