Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.7k stars 704 forks source link

中文底模(C)的训练数据 #419

Open treya-lin opened 1 year ago

treya-lin commented 1 year ago

Hi 你好

请问中文底模的使用的训练数据,从configs 可以看到是187个说话人,其它信息可以分享一下吗?如:数据集来源、总时长、总条数、平均条数 之类的。我想对训一个底模的数据量要求有个概念。另外,多语混合(CJ, CJE)模型的训练数据里,每个语种的这些信息分布,可以介绍一下吗?

另外,底模训练前你们有对数据做什么预处理吗,比如降噪、静音段修剪、文本的归一化等。

ps:我有看到文档说训练数据是一些游戏的原声是吗?请问是有哪个数据集集合了这些游戏原声数据吗?还是其实是多个分散的数据集?(我只在网上找到比如https://github.com/w4123/GenshinVoice 这样的原神数据。或许如果您有一些更具体的数据集链接可以分享看看吗)

非常感谢!

AnyaCoder commented 1 year ago

听说C模型最好,CJ次之,CJE表现相对最次,我用的CJE训练了200epochs,效果还可以。也许使用了大量的中文进行基座训练,少许jp,en语言作为辅助语料(音节变换比较少,数据可以很少),大概6:2:2