如何通过自己训练的单人speaker的fastspeech2模型进行二次微调，并且加入到模型中，且可以通过id索引的方式进行推理不同音色

PaddlePaddle / PaddleSpeech

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.

https://paddlespeech.readthedocs.io

Apache License 2.0

10.99k stars 1.83k forks source link

如何通过自己训练的单人speaker的fastspeech2模型进行二次微调，并且加入到模型中，且可以通过id索引的方式进行推理不同音色 #2953

Closed CnYiXiaoNaiHe closed 1 year ago

CnYiXiaoNaiHe commented 1 year ago

一共两个问题。 1.在单音色原有的基础上进行调整训练形成另一个音色。 2.如何讲上面二次训练的音色配置到模型中，并且推理阶段可以通过索引来控制使用哪种音色合成

yt605155624 commented 1 year ago

微调参考：
- https://github.com/PaddlePaddle/PaddleSpeech/discussions/1842
不行，如果你想一个模型通过索引控制不同音色，则必须基于多说话人模型进行微调，否则无法，必须多个单音色模型控制，后者会增大开销

CnYiXiaoNaiHe commented 1 year ago

第一种方法也就是说如果想通过一个模型的不同ID来索引多音色的话，需要遵守AISHELL3的多说话人语音进行设置训练；第二种方法就是训练多个单音色模型进行控制，这样的话相当于有多个模型，相当于单模型的N倍。可以这么理解嘛

yt605155624 commented 1 year ago

可以

CnYiXiaoNaiHe commented 1 year ago