Vocoder预训练模型时特定语言的么？

PaddlePaddle / Parakeet

PAddle PARAllel text-to-speech toolKIT (supporting Tacotron2, Transformer TTS, FastSpeech2/FastPitch, SpeedySpeech, WaveFlow and Parallel WaveGAN)

Other

598 stars 83 forks source link

一般来说可能会存在这样的问题。不同的语言覆盖的音位和音位组合可能不同。neural vocoder 和基于 DSP 的 vocoder 不同，可能它的适用性没有基于 DSP 那么广，而是和它的训练数据集有关，在数据集覆盖到的范围内，它可能比基于 DSP 的更好。但是基于 DSP 的 vocoder 总可以作为一个 baseline.

另外， vocoder 和语言的关系其实还不如和 speaker 的关系紧密。不同的 speaker 说话时的声音频谱的覆盖范围可能不同，用男声训练出来的 vocoder 在接收女声对应的频谱作为输入时，表现也可能会不好。因为这个时候的数据分布和训练它用的数据分布不同。

PaddlePaddle / Parakeet

Vocoder预训练模型时特定语言的么？ #37