Open liwang0621 opened 3 months ago
这个曲线不正常,你的声学模型用的啥
这个曲线不正常,你的声学模型用的啥
我换成了HUBERT提取的29 dim的特征,frame 256阶段模型inference来看,重构感觉也是OK的,就是嘴形和音频没有同步性
这个曲线不正常,你的声学模型用的啥
我换成了HUBERT提取的29 dim的特征,frame 256阶段模型inference来看,重构感觉也是OK的,就是嘴形和音频没有同步性
你如果用 frame 256阶段模型,只能用数据集中的音频来推理,如果想追求泛化性,还是得训练 clip模型。另外 hubert不都是 1024dim吗,你是用的哪个模型可以得到29 dim,
这个曲线不正常,你的声学模型用的啥
我换成了HUBERT提取的29 dim的特征,frame 256阶段模型inference来看,重构感觉也是OK的,就是嘴形和音频没有同步性
你如果用 frame 256阶段模型,只能用数据集中的音频来推理,如果想追求泛化性,还是得训练 clip模型。另外 hubert不都是 1024dim吗,你是用的哪个模型可以得到29 dim,
我还有几个问题: 1、训练切换到多机多卡后学习率需要修改吗,这部分有什么建议 2、最原始的视频有需要做什么对齐处理后再用于训练吗 3、后续如果继续增加训练数据,可以只训练clip阶段吗,还是说还是得从frame 64开始训练 4、HUBERT的特征有个1024和29,这俩有啥区别呀,如果我修改成1024会对同步性有帮助吗
在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不
请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?
在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不
请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?
我训练的时候也是这样子的,这个应该是正常的
在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不
请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?
我训练的时候也是这样子的,这个应该是正常的
哦哦,好的,感谢,但是感觉效果还没有直接使用 fram 训练的效果好...
在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不
请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?
我训练的时候也是这样子的,这个应该是正常的
哦哦,好的,感谢,但是感觉效果还没有直接使用 fram 训练的效果好...
我frame阶段的人脸重构效果很好,但是嘴形的一致性比较差,你们有遇到过吗,我的数据量一般大概20+个小时
在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不
请问,这个问题解决了吗?我在训 clip 的时候,sync loss 有倒刺,大佬知道啥原因吗?
我训练的时候也是这样子的,这个应该是正常的
哦哦,好的,感谢,但是感觉效果还没有直接使用 fram 训练的效果好...
frame256的清晰度、色差啥的都比 clip256要好,我这边也是这样子的
在frame阶段的训练过程中loss会出现很多倒刺,虽然最终loss下降到了一个可接受的水平,但是这个倒刺是正常的吗? 另外,在frame 256阶段训练结束后,我对模型进行了inference,发现跟语音一点也对不上,这是正常的吗,如果不是正常的,大佬,有啥建议不