MRzzm / DINet

The source code of "DINet: deformation inpainting network for realistic face visually dubbing on high resolution video."
963 stars 171 forks source link

frame阶段训练loss出现倒刺现象 #116

Open liwang0621 opened 3 months ago

liwang0621 commented 3 months ago
image

在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不

tailangjun commented 3 months ago

这个曲线不正常,你的声学模型用的啥

liwang0621 commented 3 months ago

这个曲线不正常,你的声学模型用的啥

我换成了HUBERT提取的29 dim的特征,frame 256阶段模型inference来看,重构感觉也是OK的,就是嘴形和音频没有同步性

tailangjun commented 3 months ago

这个曲线不正常,你的声学模型用的啥

我换成了HUBERT提取的29 dim的特征,frame 256阶段模型inference来看,重构感觉也是OK的,就是嘴形和音频没有同步性

你如果用 frame 256阶段模型,只能用数据集中的音频来推理,如果想追求泛化性,还是得训练 clip模型。另外 hubert不都是 1024dim吗,你是用的哪个模型可以得到29 dim,

liwang0621 commented 3 months ago

这个曲线不正常,你的声学模型用的啥

我换成了HUBERT提取的29 dim的特征,frame 256阶段模型inference来看,重构感觉也是OK的,就是嘴形和音频没有同步性

你如果用 frame 256阶段模型,只能用数据集中的音频来推理,如果想追求泛化性,还是得训练 clip模型。另外 hubert不都是 1024dim吗,你是用的哪个模型可以得到29 dim,

我还有几个问题: 1、训练切换到多机多卡后学习率需要修改吗,这部分有什么建议 2、最原始的视频有需要做什么对齐处理后再用于训练吗 3、后续如果继续增加训练数据,可以只训练clip阶段吗,还是说还是得从frame 64开始训练 4、HUBERT的特征有个1024和29,这俩有啥区别呀,如果我修改成1024会对同步性有帮助吗

sunjian2015 commented 3 months ago
image

在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不

请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?

tailangjun commented 3 months ago
image

在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不

请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?

我训练的时候也是这样子的,这个应该是正常的

sunjian2015 commented 3 months ago
image

在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不

请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?

我训练的时候也是这样子的,这个应该是正常的

哦哦,好的,感谢,但是感觉效果还没有直接使用 fram 训练的效果好...

liwang0621 commented 3 months ago
image

在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不

请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?

我训练的时候也是这样子的,这个应该是正常的

哦哦,好的,感谢,但是感觉效果还没有直接使用 fram 训练的效果好...

我frame阶段的人脸重构效果很好,但是嘴形的一致性比较差,你们有遇到过吗,我的数据量一般大概20+个小时

tailangjun commented 3 months ago
image

在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不

请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?

我训练的时候也是这样子的,这个应该是正常的

哦哦,好的,感谢,但是感觉效果还没有直接使用 fram 训练的效果好...

frame256的清晰度、色差啥的都比 clip256要好,我这边也是这样子的