Closed zhuangzhuangliu2345 closed 7 months ago
因为数据是从我做TTS以来陆续清洗采集的,很难给到你一个完整的list,需要你自己采集。 统计层面大概是1000小时左右中文,700小时左右英文和300小时左右日文,一共约2000小时。 清洗层面,sovits侧重下音质,gpt侧重文本和停顿正确性(比如口吃、复读的要过滤,标点ASR错误的要过滤,长句中间说话人多次停顿但是文本里又没有标注停顿的要过滤,等等)
请问口吃、复读情况如何过滤呢?单纯依靠文本+规则是否足够? 请问标点错误如何过滤呢?依赖停顿信息么?
请问作者,基础模型的数据对采样率有要求吗
请问作者,基础模型的数据对采样率有要求吗
录音质量好就可以,采样率没有要求,反正预处理脚本都会统一
请问作者,基础模型的数据对采样率有要求吗
录音质量好就可以,采样率没有要求,反正预处理脚本都会统一
1.请问现在gpt模型用的是那个?sbert那份,可以替换成更大的VALLE吗? 作者有计划开源一些参数量更大的底模不? 2.如果我们更换参数量更大,训练数据更多的底模,zero-shot的能力是否会有提升? 3.sovits用的是什么模型呢?是否也可以替换为更大的?
统计层面大概是1000小时左右中文,700小时左右英文和300小时左右日文,一共约2000小时。
请问三个语种说话人的数量大约是什么级别呢? @RVC-Boss
方便透漏一下用的训练原始数据是什么吗