RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
MIT License
35.03k stars 4.01k forks source link

请问加到5k小时训练效果下降的原因是啥?请问在继续预训练里面,有什么要注意的吗? #1595

Closed asf2013 closed 1 month ago

asf2013 commented 1 month ago

您好,我尝试通过微调提升现有模型的口语对话的自然度。但是效果有限,想增加大概100h的数据去做预训练,请问 1.这些数据够吗? 2.继续预训练有什么需要注意的吗?因为之前也问过v2版本5k小时在GPT模型和音频的编码器上训练后效果会下降。

asf2013 commented 1 month ago

3.请问单独微调GPT模型是可行的吗?因为数据里面有一部分比较模糊。两阶段微调后生成音频也比较糊,不如3分钟的效果好。

XXXXRT666 commented 1 month ago

最好用优质数据,单独微调可行

RVC-Boss commented 1 month ago

训练集质量