jerryuhoo / VTuberTalk

Apache License 2.0
366 stars 54 forks source link

关于finetune的方案 #7

Open AdamBear opened 2 years ago

AdamBear commented 2 years ago

看你提交记录里有修复过fastspeech2在finetune时的bug,能不能说明一下finetune的方法? 每次加新录音要全部重新训练太慢了

jerryuhoo commented 2 years ago

这个finetune指的是对vocoder的finetune,一般来说如果用speedyspeech模型训练的话,如果不finetune vocoder效果会很差,可以参考PaddleSpeech仓库的finetune方法。然后你说的每次加一个人的声音就要全部重新训练,目前来说确实只能这样,除非更改模型结构,比如说去掉speaker embedding,替换成reference audio的结构,不过我还没试验过。

AdamBear commented 2 years ago

非常感谢!

jerryuhoo commented 2 years ago

目前可行的finetune方案是先下载paddlespeech examples中aishell3的预训练模型和aishell3的数据集,然后把aishell3中随便一个人的文件夹替换为自己做的数据集,自己做了几个数据集就替换几个人的,总的人数保持不变。注意根据Readme里,在normalize之前,需要将生成的phone_id_map.txt替换为已有模型的音素词典,不然phone ip映射错误,对训练的发音产生影响。替换后也需要再finetune vocoder才有更好的效果。