PaddlePaddle / PaddleSpeech

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.
https://paddlespeech.readthedocs.io
Apache License 2.0
10.99k stars 1.83k forks source link

如何通过自己训练的单人speaker的fastspeech2模型进行二次微调,并且加入到模型中,且可以通过id索引的方式进行推理不同音色 #2953

Closed CnYiXiaoNaiHe closed 1 year ago

CnYiXiaoNaiHe commented 1 year ago

一共两个问题。 1.在单音色原有的基础上进行调整训练形成另一个音色。 2.如何讲上面二次训练的音色配置到模型中,并且推理阶段可以通过索引来控制使用哪种音色合成

yt605155624 commented 1 year ago
  1. 微调参考:
  2. 不行,如果你想一个模型通过索引控制不同音色,则必须基于多说话人模型进行微调,否则无法,必须多个单音色模型控制,后者会增大开销
CnYiXiaoNaiHe commented 1 year ago

第一种方法也就是说如果想通过一个模型的不同ID来索引多音色的话,需要遵守AISHELL3的多说话人语音进行设置训练; 第二种方法就是训练多个单音色模型进行控制,这样的话相当于有多个模型,相当于单模型的N倍。 可以这么理解嘛

yt605155624 commented 1 year ago

可以

CnYiXiaoNaiHe commented 1 year ago

关于训练语料每种音色至少准备多少,这个有统计数据吗