这个能实现30秒语音的音色克隆吗

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.69k stars 703 forks source link

Open scriptboy1990 opened 10 months ago

scriptboy1990 commented 10 months ago

我看很多商业化的，是几十秒甚至几秒钟，就可以把原声克隆了，这个算法能做到吗？

anfogy commented 10 months ago

可以，但不会有很好的效果，30秒太少了

mikeyang01 commented 9 months ago

可以，但不会有很好的效果，30秒太少了

您好, 请问建议多少音频比较好?

shirubei commented 5 months ago

10分钟音频，感觉不错

mikeyang01 commented 5 months ago

10分钟音频，感觉不错

中文吗? 10分钟可以实现吗

shirubei commented 5 months ago

10分钟音频，感觉不错

中文吗? 10分钟可以实现吗

当然是中文啊，弄过好几个音色了，都是10分钟左右的音频

mikeyang01 commented 5 months ago

10分钟音频，感觉不错

中文吗? 10分钟可以实现吗

当然是中文啊，弄过好几个音色了，都是10分钟左右的音频

谢谢大佬, 请问有什么技巧吗?

我这边10分钟的数据会出现陕西口音, 100分钟训练数据会好很多