Open myhaha opened 1 year ago
根据教程准备多发音人训练数据,使用时用 --spk_id 指定发音人。
请问你有尝试过不微调模型,仅仅使用GE2E尝试单句音频克隆的方式吗?如果有,效果如何呢?我使用TTS+GE2E进行克隆,对于训练TTS模型时没有用到过的目标说话人的音频的克隆效果很差,相似度较低而且不稳定,提供同一个说话人的不同音频甚至克隆出不同的音色,有时候发音声音的性别都出错了
根据教程准备多发音人训练数据,使用时用 --spk_id 指定发音人。
谢谢,请问下有具体的教程吗,不是很清楚应该怎么修改相应的配置文件?
请问你有尝试过不微调模型,仅仅使用GE2E尝试单句音频克隆的方式吗?如果有,效果如何呢?我使用TTS+GE2E进行克隆,对于训练TTS模型时没有用到过的目标说话人的音频的克隆效果很差,相似度较低而且不稳定,提供同一个说话人的不同音频甚至克隆出不同的音色,有时候发音声音的性别都出错了
这个没有试过。
@zh794390558 请问按哪个教程?能不能有一份详细的教程或文档啊? 我有男女几个不同的声音需要微调,怎么样组织数据? spk_id是数字,然而aishell3里面是SSB00XX这样的目录组织方式。怎样组织才能正常微调、后续用对应的spk_id推理呢?
最关键问题是MFA异常,我看examples/other/mfa 说明写了仅支持CSMSC数据集,那岂不是根本不能用于aishell3数据集?
请问在进行单音色克隆任务时是否有过如下报错呢?我用官方给的测试数据是可以的,但是上传自己的音频数据就不行。谢谢。
通过官方给的样例:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3 使用自己准备的单音色数据集,可以成功的克隆出自己需要的音色,现在我想使用多音色数据集去克隆出多音色模型,然后使用时通过speak_id选择音色。请问下应该在官方给的finetune样例中怎么修改呢?