Closed jinqinn closed 1 month ago
@czk32611 目前工程中的 whisper 组件并不能支持 stream 模式,请问我能将whisper换成 fast-whisper 吗?musttalk能支持fast-whisper 的embedding吗
@czk32611 我现在的做法是分句,然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议?谢谢
@czk32611 我现在的做法是分句,然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议?谢谢
请问这样做具体延时有多少呢?我们在V100上测试,warm up过的whisper处理10s音频可能也就100ms左右
@czk32611 我现在的做法是分句,然后分批推理。这样第一帧的播放延迟就增加了。有没有好的建议?谢谢
请问这样做具体延时有多少呢?我们在V100上测试,warm up过的whisper处理10s音频可能也就100ms左右
不只是whisper的延迟,还有tts的延迟。因为不支持流失,只能将长文本切分成短句,然后交给edge-tts等生成音频数据,所以还需要考虑tts的延迟时间。
也有相同需求,请问实现流式了吗 是如何实现的
+1 请问有没有什么进展
@itechmusic 项目还更新吗,怎么没消息了?
@xiao-keeplearning @jinqinn Hello,目前我们在整理训练代码,technical report以及进一步优化模型。准备好了会放出
音频数据流暂时没有支持计划,不好意思。
@xiao-keeplearning @jinqinn Hello,目前我们在整理训练代码,technical report以及进一步优化模型。准备好了会放出
音频数据流暂时没有支持计划,不好意思。
你是个好人,你知道吗
whisper_feature = audio_processor.audio2feat(stream) whisper_chunks = audio_processor.feature2chunks(feature_array=whisper_feature, fps=fps)
目前realtime_inference代码中的音频是基于音频文件来操作的,如何支持GPT-SOVits等实时音频流来进行实时推理呢?