ER-NeRF+hubert模式下实时推理出的画面与直接使用ER-NeRF推理出的效果相差很大

lipku / metahuman-stream

Real time interactive streaming digital human

https://livetalking-doc.readthedocs.io/

Apache License 2.0

3.55k stars 502 forks source link

ER-NeRF+hubert模式下实时推理出的画面与直接使用ER-NeRF推理出的效果相差很大 #132

Open aihu8338 opened 3 months ago

aihu8338 commented 3 months ago

使用ER-NeRF+hubert模式实时推理，出来的画面感觉嘴形与声音对不上。但是直接使用ER-NeRF推理出来的效果就挺好的。请问有办法解决吗？

ER-NeRF推理结果：

https://github.com/lipku/metahuman-stream/assets/174017561/e41b53e4-1f52-4650-9323-f77489d2a517

metahuman-stream推理结果：

https://github.com/lipku/metahuman-stream/assets/174017561/8c9e8c2a-dd2b-468c-a387-686e92246297

推理音频：tts_qingming.wav.zip

lipku commented 3 months ago

打印的fps多少

aihu8338 commented 3 months ago

@lipku ------actual avg infer fps:25.8044 ------actual avg final fps:24.9966

aihu8338 commented 2 months ago

经过测试发现，hubert的处理速度非常快，上述视频的音频总处理时长仅有0.23秒：

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理，只需要适当断句避免音频过长，然后分段处理即可。这么修改后出来的视频看上去是正常了。这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

xiao-keeplearning commented 2 months ago

经过测试发现，hubert的处理速度非常快，上述视频的音频总处理时长仅有0.23秒：
SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977
因此不需要实时流式处理，只需要适当断句避免音频过长，然后分段处理即可。这么修改后出来的视频看上去是正常了。这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

你好，问下你音频分段是多少时长一个切片么

vipxiaoma commented 2 months ago

经过测试发现，hubert的处理速度非常快，上述视频的音频总处理时长仅有0.23秒：
SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977
因此不需要实时流式处理，只需要适当断句避免音频过长，然后分段处理即可。这么修改后出来的视频看上去是正常了。这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

@aihu8338 佬，能分享一下音视频不同步解决代码吗？

aihu8338 commented 1 month ago

@vipxiaoma 没有实现，只是猜测可能可以解决。

Embracex1998 commented 1 month ago

效果真不错牙齿完美