可以训练tts 为特定人的声音吗？

lgf821793883 commented 3 years ago

当前有需求，输入一段文本，要求输出为特定人的声音（人可以指定），请问咱们的项目可以做嘛？另外可以的话，还请您指导一下。训练哪些模型。谢谢啦

iclementine commented 3 years ago

目前我们发布的一个实验是从 speaker verification 到 multi-speaker TTS 的迁移。它在流程上来说可以实现 zero-shot. 亦即不需要重新训练就可以用于 Unseen speaker.

目前我们的做法是三阶段的。

训练一个 speaker encoder 模型，
然后训练再训练一个 acoustic model, 在这个过程中以训练好的 speaker encoder 对 target audio 的编码作为额外的输入条件；
训练 vocoder.

lgf821793883 commented 3 years ago

好的，谢谢。支持中文吗？听说近期出一个中文合成模型

iclementine commented 3 years ago

好的，谢谢。支持中文吗？听说近期出一个中文合成模型

支持的。我们主要是用 pinyin 转写汉字（做一些简单的基于规则的处理拆分声韵调）。

zhimengfan1990 commented 3 years ago

这里面有中文的notebook, 请问voice clone 这个功能是否支持英文呢？

PaddlePaddle / Parakeet