fishaudio / fish-diffusion

An easy to understand TTS / SVS / SVC framework
https://diff.fish.audio
MIT License
662 stars 87 forks source link

底模训练问题 #73

Closed bfloat16 closed 1 year ago

bfloat16 commented 1 year ago

如果要自己训练底模

1.数据集是不是最好要做到音域覆盖广,语言类型多,语气语调丰富,男女都要有这类的?

2.训练参数有没有要求(比如batchsize,lr等等 训练是直接将几个开源数据集混合走单人流程训练还是区分speaker走多人流程?

3.评价底模质量是看训练时长,步数,epoch还是看loss值?

主要是想知道diffsvc,sovits这些项目底模的通用训练方法

leng-yue commented 1 year ago
  1. 是的
  2. 参数需要自己摸索, 不过一般默认的就行. 需要分多 speaker.
  3. 声码器可以一定程度参考 loss, 更多的还是看听感. 目前没有一个和人类听感绝对对齐的 loss.
bfloat16 commented 1 year ago

好的,我去试试看