TTS 小样本 finetune 声音克隆多音色问题 - Githubissues

PaddlePaddle / PaddleSpeech

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.

https://paddlespeech.readthedocs.io

Apache License 2.0

10.99k stars 1.83k forks source link

TTS 小样本 finetune 声音克隆多音色问题 #3210

Open myhaha opened 1 year ago

myhaha commented 1 year ago

通过官方给的样例：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3 使用自己准备的单音色数据集，可以成功的克隆出自己需要的音色，现在我想使用多音色数据集去克隆出多音色模型，然后使用时通过speak_id选择音色。请问下应该在官方给的finetune样例中怎么修改呢？

zh794390558 commented 1 year ago

根据教程准备多发音人训练数据，使用时用 --spk_id 指定发音人。

hhm853610070 commented 1 year ago

请问你有尝试过不微调模型，仅仅使用GE2E尝试单句音频克隆的方式吗？如果有，效果如何呢？我使用TTS+GE2E进行克隆，对于训练TTS模型时没有用到过的目标说话人的音频的克隆效果很差，相似度较低而且不稳定，提供同一个说话人的不同音频甚至克隆出不同的音色，有时候发音声音的性别都出错了

myhaha commented 1 year ago

根据教程准备多发音人训练数据，使用时用 --spk_id 指定发音人。

谢谢，请问下有具体的教程吗，不是很清楚应该怎么修改相应的配置文件？

myhaha commented 1 year ago

请问你有尝试过不微调模型，仅仅使用GE2E尝试单句音频克隆的方式吗？如果有，效果如何呢？我使用TTS+GE2E进行克隆，对于训练TTS模型时没有用到过的目标说话人的音频的克隆效果很差，相似度较低而且不稳定，提供同一个说话人的不同音频甚至克隆出不同的音色，有时候发音声音的性别都出错了

这个没有试过。

yaleimeng commented 1 year ago

@zh794390558 请问按哪个教程？能不能有一份详细的教程或文档啊？我有男女几个不同的声音需要微调，怎么样组织数据？ spk_id是数字，然而aishell3里面是SSB00XX这样的目录组织方式。怎样组织才能正常微调、后续用对应的spk_id推理呢？

最关键问题是MFA异常，我看examples/other/mfa 说明写了仅支持CSMSC数据集，那岂不是根本不能用于aishell3数据集？

NLPerxue commented 1 year ago

请问在进行单音色克隆任务时是否有过如下报错呢？我用官方给的测试数据是可以的，但是上传自己的音频数据就不行。谢谢。