Open WelkinYang opened 10 months ago
大佬回复很专业,但是可惜我是小白,所以自作主张的使用gpt解释了一下大佬的原文:
具体内容可以概括如下:
VC技术的多种训练方法:声音转换技术可以通过多种方式进行训练。一种是基于文本(text)的方法,另一种是使用语音识别器生成的声学特征,比如Whisper生成的PPG(语音识别后处理的声学特征)或结合Hubert(一种声音分析技术)和向量量化(VQ,一种编码声音特征的方式)。在原始研究中,VC通常是基于文本训练的,而sovits这种方法则使用了类似Whisper的PPG或结合Hubert和VQ。
减少音色泄露的策略:在直接从参考音频(reference wav)提取Hubert特征并进行向量量化(VQ)处理时,可能会出现音色泄露的问题。为了应对这一挑战,研究人员采用了一种基于GPT的模型,从文本中预测结合了Hubert和VQ的特征,以参考音色作为提示。这样,推理阶段生成的结合Hubert和VQ的特征就能减少音色泄露。这种策略同样适用于预测类似Whisper的PPG。
模型的局限性与实用性:尽管此方法能够减少音色泄露,但根据视频分析,vitsvc(一种声音转换技术)在零样本学习(zero-shot learning)方面的表现并不强,因为vitsvc本身并不是为零样本学习设计的。因此,它并不是一个大型的全能模型。然而,作为vitsvc方案的改进,它在少样本学习(few-shot learning)的场景下显得更加实用,因为减少了音色泄露。
未来的发展方向:如果vitsvc能够发展成一个适用于零样本学习的模型,那么它可能成为一个大型的模型。此外,由于基于语义的声音转换(semantic based vc)可以使用质量不高的数据进行训练,因此通过使用大量的数据进行训练,这个模型有可能成为一个大型模型。
从效果来看,还可以啊
从效果来看,还可以啊
你的训练音频长度大概多少呢?我用我自己的9min声音测试,机械感很强,可能是打标不够认真
不是可以直接作为reference吗,我还没有训练,还要自己训练么. 打标都是funasr
不是可以直接作为reference吗,我还没有训练,还要自己训练么. 打标都是funasr
我不太会懂具体实现,我是跟着视频走的
推理阶段的hubert+vq不是用text+参考音频的离散ssl自回归预测出来的吗?推理阶段生成出来的hubert+vq不应该就想包含参考音色吗,为什么会少音色泄露?
推理阶段的hubert+vq不是用text+参考音频的离散ssl自回归预测出来的吗?推理阶段生成出来的hubert+vq不应该就想包含参考音色吗,为什么会少音色泄露?
包含就对啊 包含的是错误的音色那叫泄露 包含的是正确的那不就是减少泄露= =
“换句话说 你用类似的方案但预测whisper的ppg也是可以的”
感谢分享
从效果来看,还可以啊
你的训练音频长度大概多少呢?我用我自己的9min声音测试,机械感很强,可能是打标不够认真
B站里有个up说,时间不易太长 https://www.bilibili.com/video/BV1P541117yn/?spm_id_from=autoNext&vd_source=0162a10fe3ccc2eb957b85fbe842f580
vitsvc知道吧 可以用text训 也可以用ppg训 比如原始论文里的vc是用text训的 sovits是用的比如whisper的ppg或者hubert+vq
但是直接从reference wav里提hubert再去vq推理的时候会有音色泄露 所以作者就用一个gpt模型来从text里预测hubert+vq 以reference音色作为prompt 这样推理阶段生成出来的hubert+vq就会少音色泄露 换句话说 你用类似的方案但预测whisper的ppg也是可以的
但由于整体的topline就是预训练的hubert+vq based vitsvc 从视频里可以看出zero-shot的能力并没有特别强 因为本身vitsvc就不是用来做zero-shot的 所以总体来讲这个不是一个大模型 但由于是vitsvc的方案的改进 音色泄露减小了 所以做few-shot是可以的 是一个比较实用的模型 如果vitsvc做成zero-shot的vitsvc 那就可以变成一个大模型 由于semantic based vc是可以用脏数据训练的 所以猛上大数据说不定可以变成一个大模型