大佬你好，有个问题想请教下

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.75k stars 714 forks source link

Open YangangCao opened 1 year ago

YangangCao commented 1 year ago

有没有可能把一个人的干净语音和文本作为输入，输出这个人读此文本的语音，且期间不进行训练？想用一个模型解决所有vc

Plachtaa commented 1 year ago

有些模型是像你描述的那样做one-shot的比如FreeVC和mocking bird，但是效果都很烂。在样本数量这块是没有免费的午餐的

YangangCao commented 1 year ago

好的谢谢大佬

YangangCao commented 1 year ago

大佬，再请教个问题，今天看到了微软的zero shot模型VALLE，这个效果看起来不错，但是没开源，对这个模型你怎么看，谢谢

Plachtaa commented 1 year ago

模型太大了一般人根本玩不起，和VITS这种100多MB的图一乐模型没法比，评价为不用考虑

YangangCao commented 1 year ago

好的，感谢大佬，专心搞TTS了，不考虑VC了🙏