Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.66k stars 696 forks source link

大佬你好,有个问题想请教下 #135

Open YangangCao opened 1 year ago

YangangCao commented 1 year ago

有没有可能把一个人的干净语音和文本作为输入,输出这个人读此文本的语音,且期间不进行训练? 想用一个模型解决所有vc

Plachtaa commented 1 year ago

有些模型是像你描述的那样做one-shot的比如FreeVC和mocking bird,但是效果都很烂。在样本数量这块是没有免费的午餐的

YangangCao commented 1 year ago

好的谢谢大佬

YangangCao commented 1 year ago

大佬,再请教个问题,今天看到了微软的zero shot模型VALLE,这个效果看起来不错,但是没开源,对这个模型你怎么看,谢谢

Plachtaa commented 1 year ago

模型太大了一般人根本玩不起,和VITS这种100多MB的图一乐模型没法比,评价为不用考虑

YangangCao commented 1 year ago

好的,感谢大佬,专心搞TTS了,不考虑VC了🙏