请问加到5k小时训练效果下降的原因是啥？请问在继续预训练里面，有什么要注意的吗？

RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

MIT License

35.03k stars 4.01k forks source link

Closed asf2013 closed 1 month ago

asf2013 commented 1 month ago

您好，我尝试通过微调提升现有模型的口语对话的自然度。但是效果有限，想增加大概100h的数据去做预训练，请问 1.这些数据够吗？ 2.继续预训练有什么需要注意的吗？因为之前也问过v2版本5k小时在GPT模型和音频的编码器上训练后效果会下降。

asf2013 commented 1 month ago

3.请问单独微调GPT模型是可行的吗？因为数据里面有一部分比较模糊。两阶段微调后生成音频也比较糊，不如3分钟的效果好。

XXXXRT666 commented 1 month ago

最好用优质数据,单独微调可行

RVC-Boss commented 1 month ago

训练集质量