lipku / metahuman-stream

Real time interactive streaming digital human
https://zhuanlan.zhihu.com/p/675131165
MIT License
954 stars 217 forks source link

基于 MuseTalk 模型推流时音画不同步 #129

Open yni9ht opened 2 weeks ago

yni9ht commented 2 weeks ago

目前在本地环境使用 MuseTalk 模型,使用 rtcpush 推流。 在推理完成后推流时,音画不同步,明显看到画面的速度比音频要快。

lipku commented 1 week ago

更新代码试一下

yni9ht commented 1 week ago

首先感谢作者及时的更新。 基于新分支 98eeeb17 测试下来效果好了不少,但还是会有一点延迟。 另外还有一个问题,我看了下 museasr.py 代码中通过 batch_zie * 2 数量的音频帧来提取特征信息,这一步是否还有优化空间呢,单个切片和较长音频段来分析特征应该是会有比较大的差异吧(音频连贯性、上下文、边界值等影响因素)。目前测试同一段音频来进行推理,目前这版本推理出来的口型和 MuseTalk 推理出来完整的视频口型上还是有一些差异的。

lipku commented 1 week ago

这是个tradeoff,离线的整个音频文件一起提取特征肯定效果最好。更长的音频会导致延时加大,在延时和质量之间折中。可以设置-l、-r来加大音频缓存长度

yni9ht commented 1 week ago

目前使用 rtcpush 的方式推流,画面和音频还是会有延迟,同时会伴有一定音画不同步的问题。

lipku commented 1 week ago

静音和说话时的fps各是多少

yni9ht commented 6 days ago

静音时稳定在25FPS,说话时大部分帧率在22FPS,刚启动时可能会在十几帧

lipku commented 6 days ago

要达到25fps才行,显卡性能不行