lipku / metahuman-stream

Real time interactive streaming digital human
https://livetalking-doc.readthedocs.io/
Apache License 2.0
3.55k stars 502 forks source link

ER-NeRF+hubert模式下实时推理出的画面与直接使用ER-NeRF推理出的效果相差很大 #132

Open aihu8338 opened 3 months ago

aihu8338 commented 3 months ago

使用ER-NeRF+hubert模式实时推理,出来的画面感觉嘴形与声音对不上。 但是直接使用ER-NeRF推理出来的效果就挺好的。 请问有办法解决吗?

ER-NeRF推理结果:

https://github.com/lipku/metahuman-stream/assets/174017561/e41b53e4-1f52-4650-9323-f77489d2a517

metahuman-stream推理结果:

https://github.com/lipku/metahuman-stream/assets/174017561/8c9e8c2a-dd2b-468c-a387-686e92246297

推理音频:tts_qingming.wav.zip

lipku commented 3 months ago

打印的fps多少

aihu8338 commented 3 months ago

@lipku ------actual avg infer fps:25.8044 ------actual avg final fps:24.9966

aihu8338 commented 2 months ago

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

xiao-keeplearning commented 2 months ago

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

你好,问下你音频分段是多少时长一个切片么

vipxiaoma commented 2 months ago

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

@aihu8338 佬,能分享一下音视频不同步解决代码吗?

aihu8338 commented 1 month ago

@vipxiaoma 没有实现,只是猜测可能可以解决。

Embracex1998 commented 1 month ago

效果真不错 牙齿完美