Open YangangCao opened 1 year ago
有没有可能把一个人的干净语音和文本作为输入,输出这个人读此文本的语音,且期间不进行训练? 想用一个模型解决所有vc
有些模型是像你描述的那样做one-shot的比如FreeVC和mocking bird,但是效果都很烂。在样本数量这块是没有免费的午餐的
好的谢谢大佬
大佬,再请教个问题,今天看到了微软的zero shot模型VALLE,这个效果看起来不错,但是没开源,对这个模型你怎么看,谢谢
模型太大了一般人根本玩不起,和VITS这种100多MB的图一乐模型没法比,评价为不用考虑
好的,感谢大佬,专心搞TTS了,不考虑VC了🙏
有没有可能把一个人的干净语音和文本作为输入,输出这个人读此文本的语音,且期间不进行训练? 想用一个模型解决所有vc