实时推理支持音频数据流

TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting

Other

1.86k stars 224 forks source link

Closed jinqinn closed 1 month ago

jinqinn commented 2 months ago

whisper_feature = audio_processor.audio2feat(stream) whisper_chunks = audio_processor.feature2chunks(feature_array=whisper_feature, fps=fps)

目前realtime_inference代码中的音频是基于音频文件来操作的，如何支持GPT-SOVits等实时音频流来进行实时推理呢？

jinqinn commented 2 months ago

@czk32611 目前工程中的 whisper 组件并不能支持 stream 模式，请问我能将whisper换成 fast-whisper 吗？musttalk能支持fast-whisper 的embedding吗

jinqinn commented 1 month ago

@czk32611 我现在的做法是分句，然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议？谢谢

czk32611 commented 1 month ago

@czk32611 我现在的做法是分句，然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议？谢谢

请问这样做具体延时有多少呢？我们在V100上测试，warm up过的whisper处理10s音频可能也就100ms左右

jinqinn commented 1 month ago

@czk32611 我现在的做法是分句，然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议？谢谢

请问这样做具体延时有多少呢？我们在V100上测试，warm up过的whisper处理10s音频可能也就100ms左右

不只是whisper的延迟，还有tts的延迟。因为不支持流失，只能将长文本切分成短句，然后交给edge-tts等生成音频数据，所以还需要考虑tts的延迟时间。

LvHuaiSheng commented 1 month ago

也有相同需求，请问实现流式了吗是如何实现的

xiao-keeplearning commented 1 month ago

+1 请问有没有什么进展

jinqinn commented 1 month ago

@itechmusic 项目还更新吗，怎么没消息了？

czk32611 commented 1 month ago

@xiao-keeplearning @jinqinn Hello，目前我们在整理训练代码，technical report以及进一步优化模型。准备好了会放出

音频数据流暂时没有支持计划，不好意思。

jinqinn commented 1 month ago

@xiao-keeplearning @jinqinn Hello，目前我们在整理训练代码，technical report以及进一步优化模型。准备好了会放出

音频数据流暂时没有支持计划，不好意思。

你是个好人，你知道吗