用Chinese Mandarin Lip Reading（CMLR）数据集训练syncnet模型，训练40000步。最终的syncloss停留在0.34，感觉这个loss有点高，对比了下lrs3的训练，在15000步的时候，syncloss 就能到0.25左右。

yerfor / GeneFace

GeneFace: Generalized and High-Fidelity 3D Talking Face Synthesis; ICLR 2023; Official code

MIT License

2.52k stars 294 forks source link

Open yulj21 opened 1 year ago

yulj21 commented 1 year ago

tailangjun commented 1 year ago

我刚下下来CMLR，正准备训练

yulj21 commented 1 year ago

训练的时候要注意把样本打乱，不然不容易收敛

tailangjun commented 1 year ago

收到，谢谢

yulj21 commented 1 year ago

cmlr数据集有个缺点，就是说话人只有11个，而且都是播音腔，这个会导致后面用别的音频去生成的视频的时候效果很差，我用了接近播音腔的tts合成的音频，生成的效果还可以，但是用自己说话的音频的话，效果特别差。最近打算用lrw-1000去做训练，看看效果怎么样

tailangjun commented 1 year ago

cmlr数据集有个缺点，就是说话人只有11个，而且都是播音腔，这个会导致后面用别的音频去生成的视频的时候效果很差，我用了接近播音腔的tts合成的音频，生成的效果还可以，但是用自己说话的音频的话，效果特别差。最近打算用lrw-1000去做训练，看看效果怎么样

老铁，请问你语音克隆用的是哪个呀，我目前还没找到一个好用的开源项目，谢谢

yulj21 commented 1 year ago

语音克隆用的是讯飞的，公司采购的

tailangjun commented 1 year ago

语音克隆用的是讯飞的，公司采购的

收到，谢谢

lokvke commented 11 months ago

@yulj21 请问作者提供的May预训练模型是不是不支持对中文音频的合成呀？

Chuyikshing1688 commented 8 months ago

哥们最后练出来了吗？

JJun-Guo commented 6 months ago

cmlr数据集有个缺点，就是说话人只有11个，而且都是播音腔，这个会导致后面用别的音频去生成的视频的时候效果很差，我用了接近播音腔的tts合成的音频，生成的效果还可以，但是用自己说话的音频的话，效果特别差。最近打算用lrw-1000去做训练，看看效果怎么样

老哥，lrw-1000效果会更好一些吗

Westbrook077 commented 4 months ago

hubert特征采用的是 https://huggingface.co/TencentGameMate/chinese-hubert-large/tree/main这个链接下的模型

老哥，使用这个模型时，tokenizer你是自建的吗