PaddlePaddle / PaddleSpeech

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.
https://paddlespeech.readthedocs.io
Apache License 2.0
10.99k stars 1.83k forks source link

TTS 小样本 finetune 声音克隆多音色问题 #3210

Open myhaha opened 1 year ago

myhaha commented 1 year ago

通过官方给的样例:https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3 使用自己准备的单音色数据集,可以成功的克隆出自己需要的音色,现在我想使用多音色数据集去克隆出多音色模型,然后使用时通过speak_id选择音色。请问下应该在官方给的finetune样例中怎么修改呢?

zh794390558 commented 1 year ago

根据教程准备多发音人训练数据,使用时用 --spk_id 指定发音人。

hhm853610070 commented 1 year ago

请问你有尝试过不微调模型,仅仅使用GE2E尝试单句音频克隆的方式吗?如果有,效果如何呢?我使用TTS+GE2E进行克隆,对于训练TTS模型时没有用到过的目标说话人的音频的克隆效果很差,相似度较低而且不稳定,提供同一个说话人的不同音频甚至克隆出不同的音色,有时候发音声音的性别都出错了

myhaha commented 1 year ago

根据教程准备多发音人训练数据,使用时用 --spk_id 指定发音人。

谢谢,请问下有具体的教程吗,不是很清楚应该怎么修改相应的配置文件?

myhaha commented 1 year ago

请问你有尝试过不微调模型,仅仅使用GE2E尝试单句音频克隆的方式吗?如果有,效果如何呢?我使用TTS+GE2E进行克隆,对于训练TTS模型时没有用到过的目标说话人的音频的克隆效果很差,相似度较低而且不稳定,提供同一个说话人的不同音频甚至克隆出不同的音色,有时候发音声音的性别都出错了

这个没有试过。

yaleimeng commented 1 year ago

@zh794390558 请问按哪个教程?能不能有一份详细的教程或文档啊? 我有男女几个不同的声音需要微调,怎么样组织数据? spk_id是数字,然而aishell3里面是SSB00XX这样的目录组织方式。怎样组织才能正常微调、后续用对应的spk_id推理呢?

最关键问题是MFA异常,我看examples/other/mfa 说明写了仅支持CSMSC数据集,那岂不是根本不能用于aishell3数据集?

NLPerxue commented 1 year ago

请问在进行单音色克隆任务时是否有过如下报错呢?我用官方给的测试数据是可以的,但是上传自己的音频数据就不行。谢谢。

image