kleinlee / DH_live

每个人都能用的数字人
496 stars 109 forks source link

最后返回视频,音频和画面时长不一致,是对传入的音频有什么特殊要求? #54

Open hjj-lmx opened 3 hours ago

hjj-lmx commented 3 hours ago

https://github.com/user-attachments/assets/e918926c-12bc-4541-85f5-bbe014e76c7b

kleinlee commented 2 hours ago

语音需要16K采样率,单通道。 readme里面有说明。 这个视频采样率是24k赫兹。

hjj-lmx commented 2 hours ago

语音需要16K采样率,单通道。 readme里面有说明。 这个视频采样率是24k赫兹。

tran里面的与训练模型怎么转换为可用render.pth,下载后直接使用不了,是解压出来的效果好点,还是哪个预训练的好点

hjj-lmx commented 30 minutes ago

语音需要16K采样率,单通道。readme里面有说明。这个视频采样率为24kHz。

image 我这么修改后,嘴巴都不动了