Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 703 forks source link

这个能实现30秒语音的音色克隆吗 #502

Open scriptboy1990 opened 10 months ago

scriptboy1990 commented 10 months ago

我看很多商业化的,是几十秒甚至几秒钟,就可以把原声克隆了,这个算法能做到吗?

anfogy commented 10 months ago

可以,但不会有很好的效果,30秒太少了

mikeyang01 commented 9 months ago

可以,但不会有很好的效果,30秒太少了

您好, 请问建议多少音频比较好?

shirubei commented 5 months ago

10分钟音频,感觉不错

mikeyang01 commented 5 months ago

10分钟音频,感觉不错

中文吗? 10分钟可以实现吗

shirubei commented 5 months ago

10分钟音频,感觉不错

中文吗? 10分钟可以实现吗

当然是中文啊,弄过好几个音色了,都是10分钟左右的音频

mikeyang01 commented 5 months ago

10分钟音频,感觉不错

中文吗? 10分钟可以实现吗

当然是中文啊,弄过好几个音色了,都是10分钟左右的音频

谢谢大佬, 请问有什么技巧吗?

我这边10分钟的数据会出现陕西口音, 100分钟训练数据会好很多