PaddlePaddle / Parakeet

PAddle PARAllel text-to-speech toolKIT (supporting Tacotron2, Transformer TTS, FastSpeech2/FastPitch, SpeedySpeech, WaveFlow and Parallel WaveGAN)
Other
598 stars 83 forks source link

Vocoder预训练模型时特定语言的么? #37

Closed ymzlygw closed 3 years ago

ymzlygw commented 4 years ago

比如根据Ljspeech英语数据集训练出来的waveflow-vocoder,输入英语wav的mel文件,会生成十分相似的wav。但是如果输入其他语言的mel波形,比如日语,或者中文的mel波形,则可能无法合成正常的wav,甚至只能合成噪声文件。因此需要根据特定语言训练特定的vocoder,是这样的么?

iclementine commented 3 years ago

一般来说可能会存在这样的问题。不同的语言覆盖的音位和音位组合可能不同。neural vocoder 和基于 DSP 的 vocoder 不同,可能它的适用性没有基于 DSP 那么广,而是和它的训练数据集有关,在数据集覆盖到的范围内,它可能比基于 DSP 的更好。但是基于 DSP 的 vocoder 总可以作为一个 baseline.

另外, vocoder 和语言的关系其实还不如和 speaker 的关系紧密。不同的 speaker 说话时的声音频谱的覆盖范围可能不同, 用男声训练出来的 vocoder 在接收女声对应的频谱作为输入时,表现也可能会不好。因为这个时候的数据分布和训练它用的数据分布不同。