yuangan / EAT_code

Official code for ICCV 2023 paper: "Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation".
Other
269 stars 30 forks source link

Any way support for Chinese audio? #28

Closed lililuya closed 5 months ago

lililuya commented 5 months ago

作者大佬,我发现英文的同步效果非常好,但是如果用中文的语音数据去inference,音频与视频非常不同步,这个是Deepspeech的原因还是说需要再重训一个A2KP?非常期待您的回复!

https://github.com/yuangan/EAT_code/assets/141640497/4c4e0f35-9469-4bbb-af06-de067c07731e

yuangan commented 5 months ago

您好,需要重新训一个A2KP,EAT用的所有训练数据里没有中文语音。

lililuya commented 5 months ago

您好,需要重新训一个A2KP,EAT用的所有训练数据里没有中文语音。

感谢您的回复,因为我看DINet也用的Deepspeech特征,它的中文应该也还行的,不至于完全不同步,我想EAT应该也差不多。我检查了一下我的代码,因为我的音频是从TTS出来的,没注意采样率,所以造成了完全不同步。Bug已解决感谢您的工作

yuangan commented 5 months ago

嗯嗯,能解决就好~