Open aihu8338 opened 5 months ago
打印的fps多少
@lipku ------actual avg infer fps:25.8044 ------actual avg final fps:24.9966
经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:
SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977
因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。
经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:
SR: 24000 to 16000 time 0.024374520406126976 hubert time 0.21406333334743977
因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。
你好,问下你音频分段是多少时长一个切片么
经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:
SR: 24000 to 16000 time 0.024374520406126976 hubert time 0.21406333334743977
因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。
@aihu8338 佬,能分享一下音视频不同步解决代码吗?
@vipxiaoma 没有实现,只是猜测可能可以解决。
效果真不错 牙齿完美
使用ER-NeRF+hubert模式实时推理,出来的画面感觉嘴形与声音对不上。 但是直接使用ER-NeRF推理出来的效果就挺好的。 请问有办法解决吗?
ER-NeRF推理结果:
https://github.com/lipku/metahuman-stream/assets/174017561/e41b53e4-1f52-4650-9323-f77489d2a517
metahuman-stream推理结果:
https://github.com/lipku/metahuman-stream/assets/174017561/8c9e8c2a-dd2b-468c-a387-686e92246297
推理音频:tts_qingming.wav.zip