RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
MIT License
32.19k stars 3.7k forks source link

训练数据 #217

Closed zhuangzhuangliu2345 closed 7 months ago

zhuangzhuangliu2345 commented 7 months ago

方便透漏一下用的训练原始数据是什么吗

RVC-Boss commented 7 months ago

因为数据是从我做TTS以来陆续清洗采集的,很难给到你一个完整的list,需要你自己采集。 统计层面大概是1000小时左右中文,700小时左右英文和300小时左右日文,一共约2000小时。 清洗层面,sovits侧重下音质,gpt侧重文本和停顿正确性(比如口吃、复读的要过滤,标点ASR错误的要过滤,长句中间说话人多次停顿但是文本里又没有标注停顿的要过滤,等等)

TinaChen95 commented 7 months ago

请问口吃、复读情况如何过滤呢?单纯依靠文本+规则是否足够? 请问标点错误如何过滤呢?依赖停顿信息么?

Ranzige commented 6 months ago

请问作者,基础模型的数据对采样率有要求吗

RVC-Boss commented 4 months ago

请问作者,基础模型的数据对采样率有要求吗

录音质量好就可以,采样率没有要求,反正预处理脚本都会统一

LzyloveRila commented 4 months ago

请问作者,基础模型的数据对采样率有要求吗

录音质量好就可以,采样率没有要求,反正预处理脚本都会统一

1.请问现在gpt模型用的是那个?sbert那份,可以替换成更大的VALLE吗? 作者有计划开源一些参数量更大的底模不? 2.如果我们更换参数量更大,训练数据更多的底模,zero-shot的能力是否会有提升? 3.sovits用的是什么模型呢?是否也可以替换为更大的?

pengzhendong commented 2 months ago

统计层面大概是1000小时左右中文,700小时左右英文和300小时左右日文,一共约2000小时。

请问三个语种说话人的数量大约是什么级别呢? @RVC-Boss