yerfor / GeneFace

GeneFace: Generalized and High-Fidelity 3D Talking Face Synthesis; ICLR 2023; Official code
MIT License
2.52k stars 294 forks source link

用Chinese Mandarin Lip Reading(CMLR)数据集训练syncnet模型,训练40000步。最终的syncloss停留在0.34,感觉这个loss有点高,对比了下lrs3的训练,在15000步的时候,syncloss 就能到0.25左右。 #187

Open yulj21 opened 1 year ago

yulj21 commented 1 year ago

hubert特征采用的是 https://huggingface.co/TencentGameMate/chinese-hubert-large/tree/main这个链接下的模型

tailangjun commented 1 year ago

我刚下下来CMLR,正准备训练

yulj21 commented 1 year ago

训练的时候要注意把样本打乱,不然不容易收敛

tailangjun commented 1 year ago

收到,谢谢

yulj21 commented 1 year ago

cmlr数据集有个缺点,就是说话人只有11个,而且都是播音腔,这个会导致后面用别的音频去生成的视频的时候效果很差,我用了接近播音腔的tts合成的音频,生成的效果还可以,但是用自己说话的音频的话,效果特别差。最近打算用lrw-1000去做训练,看看效果怎么样

tailangjun commented 1 year ago

cmlr数据集有个缺点,就是说话人只有11个,而且都是播音腔,这个会导致后面用别的音频去生成的视频的时候效果很差,我用了接近播音腔的tts合成的音频,生成的效果还可以,但是用自己说话的音频的话,效果特别差。最近打算用lrw-1000去做训练,看看效果怎么样

老铁,请问你语音克隆用的是哪个呀,我目前还没找到一个好用的开源项目,谢谢

yulj21 commented 1 year ago

语音克隆用的是讯飞的,公司采购的

tailangjun commented 1 year ago

语音克隆用的是讯飞的,公司采购的

收到,谢谢

lokvke commented 11 months ago

@yulj21 请问作者提供的May预训练模型是不是不支持对中文音频的合成呀?

Chuyikshing1688 commented 8 months ago

哥们最后练出来了吗?

JJun-Guo commented 6 months ago

cmlr数据集有个缺点,就是说话人只有11个,而且都是播音腔,这个会导致后面用别的音频去生成的视频的时候效果很差,我用了接近播音腔的tts合成的音频,生成的效果还可以,但是用自己说话的音频的话,效果特别差。最近打算用lrw-1000去做训练,看看效果怎么样

老哥,lrw-1000效果会更好一些吗

Westbrook077 commented 4 months ago

hubert特征采用的是 https://huggingface.co/TencentGameMate/chinese-hubert-large/tree/main这个链接下的模型

老哥,使用这个模型时,tokenizer你是自建的吗