Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 703 forks source link

相比于原始的vits,这个算法在fast fine tune这块针对模型做了哪些改动 #513

Closed scriptboy1990 closed 9 months ago

KdaiP commented 9 months ago

没有改动

scriptboy1990 commented 9 months ago

没有改动

喔,意思是原始的vits就支持几十秒的声音就可以克隆吗。

KdaiP commented 9 months ago

没有改动

喔,意思是原始的vits就支持几十秒的声音就可以克隆吗。

克隆主要看底模的能力,底模数据和多样性大克隆的效果就好。如果在原版Vits上更换一个支持多语种的文本前端然后用大量数据训练一个底模出来效果也会很好的。 这个repo除了模型以外的改动还挺多的,比如更方便的数据处理,更少的报错等等,原版Vits坑很多,这个部署起来容易多了。

scriptboy1990 commented 9 months ago

克隆一般是在多说话人的底模上微调吗。

KdaiP commented 9 months ago

克隆一般是在多说话人的底模上微调吗。

是的。所以在LOCAL.md里面有一个步骤就是下载和加载底模。