RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
MIT License
35.62k stars 4.06k forks source link

视频里说的有点乱,一句话告诉你这模型是干啥的 #3

Open WelkinYang opened 10 months ago

WelkinYang commented 10 months ago

vitsvc知道吧 可以用text训 也可以用ppg训 比如原始论文里的vc是用text训的 sovits是用的比如whisper的ppg或者hubert+vq

但是直接从reference wav里提hubert再去vq推理的时候会有音色泄露 所以作者就用一个gpt模型来从text里预测hubert+vq 以reference音色作为prompt 这样推理阶段生成出来的hubert+vq就会少音色泄露 换句话说 你用类似的方案但预测whisper的ppg也是可以的

但由于整体的topline就是预训练的hubert+vq based vitsvc 从视频里可以看出zero-shot的能力并没有特别强 因为本身vitsvc就不是用来做zero-shot的 所以总体来讲这个不是一个大模型 但由于是vitsvc的方案的改进 音色泄露减小了 所以做few-shot是可以的 是一个比较实用的模型 如果vitsvc做成zero-shot的vitsvc 那就可以变成一个大模型 由于semantic based vc是可以用脏数据训练的 所以猛上大数据说不定可以变成一个大模型

906051999 commented 10 months ago

大佬回复很专业,但是可惜我是小白,所以自作主张的使用gpt解释了一下大佬的原文:

具体内容可以概括如下:

  1. VC技术的多种训练方法:声音转换技术可以通过多种方式进行训练。一种是基于文本(text)的方法,另一种是使用语音识别器生成的声学特征,比如Whisper生成的PPG(语音识别后处理的声学特征)或结合Hubert(一种声音分析技术)和向量量化(VQ,一种编码声音特征的方式)。在原始研究中,VC通常是基于文本训练的,而sovits这种方法则使用了类似Whisper的PPG或结合Hubert和VQ。

  2. 减少音色泄露的策略:在直接从参考音频(reference wav)提取Hubert特征并进行向量量化(VQ)处理时,可能会出现音色泄露的问题。为了应对这一挑战,研究人员采用了一种基于GPT的模型,从文本中预测结合了Hubert和VQ的特征,以参考音色作为提示。这样,推理阶段生成的结合Hubert和VQ的特征就能减少音色泄露。这种策略同样适用于预测类似Whisper的PPG。

  3. 模型的局限性与实用性:尽管此方法能够减少音色泄露,但根据视频分析,vitsvc(一种声音转换技术)在零样本学习(zero-shot learning)方面的表现并不强,因为vitsvc本身并不是为零样本学习设计的。因此,它并不是一个大型的全能模型。然而,作为vitsvc方案的改进,它在少样本学习(few-shot learning)的场景下显得更加实用,因为减少了音色泄露。

  4. 未来的发展方向:如果vitsvc能够发展成一个适用于零样本学习的模型,那么它可能成为一个大型的模型。此外,由于基于语义的声音转换(semantic based vc)可以使用质量不高的数据进行训练,因此通过使用大量的数据进行训练,这个模型有可能成为一个大型模型。

lucasjinreal commented 10 months ago

从效果来看,还可以啊

906051999 commented 10 months ago

从效果来看,还可以啊

你的训练音频长度大概多少呢?我用我自己的9min声音测试,机械感很强,可能是打标不够认真

lucasjinreal commented 10 months ago

不是可以直接作为reference吗,我还没有训练,还要自己训练么. 打标都是funasr

906051999 commented 10 months ago

不是可以直接作为reference吗,我还没有训练,还要自己训练么. 打标都是funasr

我不太会懂具体实现,我是跟着视频走的

howitry commented 9 months ago

推理阶段的hubert+vq不是用text+参考音频的离散ssl自回归预测出来的吗?推理阶段生成出来的hubert+vq不应该就想包含参考音色吗,为什么会少音色泄露?

WelkinYang commented 9 months ago

推理阶段的hubert+vq不是用text+参考音频的离散ssl自回归预测出来的吗?推理阶段生成出来的hubert+vq不应该就想包含参考音色吗,为什么会少音色泄露?

包含就对啊 包含的是错误的音色那叫泄露 包含的是正确的那不就是减少泄露= =

TinaChen95 commented 9 months ago

“换句话说 你用类似的方案但预测whisper的ppg也是可以的”

ZhangJianBeiJing commented 8 months ago

感谢分享

xueshuai0922 commented 8 months ago

从效果来看,还可以啊

你的训练音频长度大概多少呢?我用我自己的9min声音测试,机械感很强,可能是打标不够认真

B站里有个up说,时间不易太长 https://www.bilibili.com/video/BV1P541117yn/?spm_id_from=autoNext&vd_source=0162a10fe3ccc2eb957b85fbe842f580