Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.75k stars 714 forks source link

真不是bug吗? #206

Open 40740 opened 1 year ago

40740 commented 1 year ago

第一次用的数据集+CJE的底模,可以训练出数据集的音色; 但开始玄乎了,我后面用C和CJ甚至再次用回CJE的底模,一样的数据集,却没能训练出来数据集的音色,永远是底模的音色,我测试过五次了,太艰难了。请求老大救救孩子吧。谢谢谢谢

Plachtaa commented 1 year ago

如果是像你描述的那样的话,确实是非常匪夷所思的。但是我刚才又用CJ不加AUXILIARY训练了一遍,音色都是正确的。我目前的建议是先用给的样本数据训练一下看音色能不能拟合,这样比较方便排查问题在哪里。

40740 commented 1 year ago

如果是像你描述的那样的话,确实是非常匪夷所思的。但是我刚才又用CJ不加AUXILIARY训练了一遍,音色都是正确的。我目前的建议是先用给的样本数据训练一下看音色能不能拟合,这样比较方便排查问题在哪里。

明天用样本数据看看,今天再度测试,不加AUXILIARY 还会出现之前的问题。(https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/191) 我用的是短音频(113条)第一次也是用这个的。

加AUXILIARY 现在不管是c还是cje 还是cj 音色都不对。