TMElyralab / MuseTalk

MuseTalk: Real-Time High Quality Lip Synchorization with Latent Space Inpainting
Other
1.86k stars 224 forks source link

实时推理支持音频数据流 #60

Closed jinqinn closed 1 month ago

jinqinn commented 2 months ago

whisper_feature = audio_processor.audio2feat(stream) whisper_chunks = audio_processor.feature2chunks(feature_array=whisper_feature, fps=fps)

目前realtime_inference代码中的音频是基于音频文件来操作的,如何支持GPT-SOVits等实时音频流来进行实时推理呢?

jinqinn commented 2 months ago

@czk32611 目前工程中的 whisper 组件并不能支持 stream 模式,请问我能将whisper换成 fast-whisper 吗?musttalk能支持fast-whisper 的embedding吗

jinqinn commented 1 month ago

@czk32611 我现在的做法是分句,然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议?谢谢

czk32611 commented 1 month ago

@czk32611 我现在的做法是分句,然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议?谢谢

请问这样做具体延时有多少呢?我们在V100上测试,warm up过的whisper处理10s音频可能也就100ms左右

jinqinn commented 1 month ago

@czk32611 我现在的做法是分句,然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议?谢谢

请问这样做具体延时有多少呢?我们在V100上测试,warm up过的whisper处理10s音频可能也就100ms左右

不只是whisper的延迟,还有tts的延迟。因为不支持流失,只能将长文本切分成短句,然后交给edge-tts等生成音频数据,所以还需要考虑tts的延迟时间。

LvHuaiSheng commented 1 month ago

也有相同需求,请问实现流式了吗 是如何实现的

xiao-keeplearning commented 1 month ago

+1 请问有没有什么进展

jinqinn commented 1 month ago

@itechmusic 项目还更新吗,怎么没消息了?

czk32611 commented 1 month ago

@xiao-keeplearning @jinqinn Hello,目前我们在整理训练代码,technical report以及进一步优化模型。准备好了会放出

音频数据流暂时没有支持计划,不好意思。

jinqinn commented 1 month ago

@xiao-keeplearning @jinqinn Hello,目前我们在整理训练代码,technical report以及进一步优化模型。准备好了会放出

音频数据流暂时没有支持计划,不好意思。

你是个好人,你知道吗