zhangchenxu528 / FACIAL

FACIAL: Synthesizing Dynamic Talking Face With Implicit Attribute Learning. ICCV, 2021.
GNU Affero General Public License v3.0
376 stars 83 forks source link

The mouth movements are all the same for different voices. #47

Closed czy36mengfei closed 2 years ago

czy36mengfei commented 2 years ago

您好, 我在用您提供的的模型和流程训练新的形象,用的中文视频微调,发现嘴型同步效果很差,甚至不同语音的嘴部动作都差不多。 请问audio2face预训模型的问题还是其他什么问题。 谢谢。

yaleimeng commented 2 years ago

这个项目的口型同步确实是一个短板,不光口型与声音不太同步,而且仔细观察可以发现口型跟音节特点不一致,基本就是在乱动。样例视频只是粗看之下还可以。

zhangchenxu528 commented 2 years ago

如果对于任何数据都是一样的口型,那么应该是实现错误。參考 #37

使用中文数据fine-tuning结果很差,我目前认为有几点可能原因: 1)DeepSpeech feature对中文不太适用,可以直接使用MFCC feature 2)Deep3DfaceReconstruction嘴部结果不够精确,可以考虑使用DECA替代 https://github.com/YadiraF/DECA 3)我们网络单次输出128帧,可能需要增加训练数据。如果有改进结果也可以提出pull request,我有空会尝试测试其他网络结构。