基于 MuseTalk 模型推流时音画不同步

lipku / metahuman-stream

Real time interactive streaming digital human

https://zhuanlan.zhihu.com/p/675131165

MIT License

954 stars 217 forks source link

基于 MuseTalk 模型推流时音画不同步 #129

Open yni9ht opened 2 weeks ago

yni9ht commented 2 weeks ago

目前在本地环境使用 MuseTalk 模型，使用 rtcpush 推流。在推理完成后推流时，音画不同步，明显看到画面的速度比音频要快。

lipku commented 1 week ago

更新代码试一下

yni9ht commented 1 week ago

首先感谢作者及时的更新。基于新分支 98eeeb17 测试下来效果好了不少，但还是会有一点延迟。另外还有一个问题，我看了下 museasr.py 代码中通过 batch_zie * 2 数量的音频帧来提取特征信息，这一步是否还有优化空间呢，单个切片和较长音频段来分析特征应该是会有比较大的差异吧（音频连贯性、上下文、边界值等影响因素）。目前测试同一段音频来进行推理，目前这版本推理出来的口型和 MuseTalk 推理出来完整的视频口型上还是有一些差异的。

lipku commented 1 week ago

这是个tradeoff，离线的整个音频文件一起提取特征肯定效果最好。更长的音频会导致延时加大，在延时和质量之间折中。可以设置-l、-r来加大音频缓存长度

yni9ht commented 1 week ago

目前使用 rtcpush 的方式推流，画面和音频还是会有延迟，同时会伴有一定音画不同步的问题。

lipku commented 1 week ago

静音和说话时的fps各是多少

yni9ht commented 6 days ago

静音时稳定在25FPS，说话时大部分帧率在22FPS，刚启动时可能会在十几帧

lipku commented 6 days ago

要达到25fps才行，显卡性能不行