训练数据 - Githubissues

RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

MIT License

32.19k stars 3.7k forks source link

训练数据 #217

Closed zhuangzhuangliu2345 closed 7 months ago

zhuangzhuangliu2345 commented 7 months ago

方便透漏一下用的训练原始数据是什么吗

RVC-Boss commented 7 months ago

因为数据是从我做TTS以来陆续清洗采集的，很难给到你一个完整的list，需要你自己采集。统计层面大概是1000小时左右中文，700小时左右英文和300小时左右日文，一共约2000小时。清洗层面，sovits侧重下音质，gpt侧重文本和停顿正确性（比如口吃、复读的要过滤，标点ASR错误的要过滤，长句中间说话人多次停顿但是文本里又没有标注停顿的要过滤，等等）

TinaChen95 commented 7 months ago

请问口吃、复读情况如何过滤呢？单纯依靠文本+规则是否足够？请问标点错误如何过滤呢？依赖停顿信息么？

Ranzige commented 6 months ago

请问作者，基础模型的数据对采样率有要求吗

RVC-Boss commented 4 months ago

请问作者，基础模型的数据对采样率有要求吗

录音质量好就可以，采样率没有要求，反正预处理脚本都会统一

LzyloveRila commented 4 months ago

请问作者，基础模型的数据对采样率有要求吗

录音质量好就可以，采样率没有要求，反正预处理脚本都会统一

1.请问现在gpt模型用的是那个？sbert那份，可以替换成更大的VALLE吗？作者有计划开源一些参数量更大的底模不？ 2.如果我们更换参数量更大，训练数据更多的底模，zero-shot的能力是否会有提升？ 3.sovits用的是什么模型呢？是否也可以替换为更大的？

pengzhendong commented 2 months ago

统计层面大概是1000小时左右中文，700小时左右英文和300小时左右日文，一共约2000小时。

请问三个语种说话人的数量大约是什么级别呢？ @RVC-Boss