视频里说的有点乱，一句话告诉你这模型是干啥的

WelkinYang commented 10 months ago

vitsvc知道吧可以用text训也可以用ppg训比如原始论文里的vc是用text训的 sovits是用的比如whisper的ppg或者hubert+vq

但是直接从reference wav里提hubert再去vq推理的时候会有音色泄露所以作者就用一个gpt模型来从text里预测hubert+vq 以reference音色作为prompt 这样推理阶段生成出来的hubert+vq就会少音色泄露换句话说你用类似的方案但预测whisper的ppg也是可以的

但由于整体的topline就是预训练的hubert+vq based vitsvc 从视频里可以看出zero-shot的能力并没有特别强因为本身vitsvc就不是用来做zero-shot的所以总体来讲这个不是一个大模型但由于是vitsvc的方案的改进音色泄露减小了所以做few-shot是可以的是一个比较实用的模型如果vitsvc做成zero-shot的vitsvc 那就可以变成一个大模型由于semantic based vc是可以用脏数据训练的所以猛上大数据说不定可以变成一个大模型

906051999 commented 10 months ago

大佬回复很专业，但是可惜我是小白，所以自作主张的使用gpt解释了一下大佬的原文：

具体内容可以概括如下：

VC技术的多种训练方法：声音转换技术可以通过多种方式进行训练。一种是基于文本（text）的方法，另一种是使用语音识别器生成的声学特征，比如Whisper生成的PPG（语音识别后处理的声学特征）或结合Hubert（一种声音分析技术）和向量量化（VQ，一种编码声音特征的方式）。在原始研究中，VC通常是基于文本训练的，而sovits这种方法则使用了类似Whisper的PPG或结合Hubert和VQ。
减少音色泄露的策略：在直接从参考音频（reference wav）提取Hubert特征并进行向量量化（VQ）处理时，可能会出现音色泄露的问题。为了应对这一挑战，研究人员采用了一种基于GPT的模型，从文本中预测结合了Hubert和VQ的特征，以参考音色作为提示。这样，推理阶段生成的结合Hubert和VQ的特征就能减少音色泄露。这种策略同样适用于预测类似Whisper的PPG。
模型的局限性与实用性：尽管此方法能够减少音色泄露，但根据视频分析，vitsvc（一种声音转换技术）在零样本学习（zero-shot learning）方面的表现并不强，因为vitsvc本身并不是为零样本学习设计的。因此，它并不是一个大型的全能模型。然而，作为vitsvc方案的改进，它在少样本学习（few-shot learning）的场景下显得更加实用，因为减少了音色泄露。
未来的发展方向：如果vitsvc能够发展成一个适用于零样本学习的模型，那么它可能成为一个大型的模型。此外，由于基于语义的声音转换（semantic based vc）可以使用质量不高的数据进行训练，因此通过使用大量的数据进行训练，这个模型有可能成为一个大型模型。