Open tailangjun opened 9 months ago
我本地使用尝试训练了几段视频,发现生成的视频动作上比较自然,但是音频和嘴唇没有对齐,不知道是哪里的问题?
源视频尺寸480x480,帧率25帧/秒,时长5分钟 驱动音频采样率 16k
另外我发现英文下的对齐效果要好于中文,不知道是不是和 syncnet训练的数据集有关,是不是我们自己训练 syncnet会有改善。
我本地使用尝试训练了几段视频,发现生成的视频动作上比较自然,但是音频和嘴唇没有对齐,不知道是哪里的问题?
源视频尺寸480x480,帧率25帧/秒,时长5分钟 驱动音频采样率 16k
另外我发现英文下的对齐效果要好于中文,不知道是不是和 syncnet训练的数据集有关,是不是我们自己训练 syncnet会有改善。