PaddlePaddle / Parakeet

PAddle PARAllel text-to-speech toolKIT (supporting Tacotron2, Transformer TTS, FastSpeech2/FastPitch, SpeedySpeech, WaveFlow and Parallel WaveGAN)
Other
598 stars 83 forks source link

如何Combine DeepVoice3+WaveFlow? #21

Closed ymzlygw closed 3 years ago

ymzlygw commented 4 years ago

能请教下如何结合 DeepVoice3 + WaveFlow这两个框架么? DeepVoice3默认是使用Griffin-Lim 算法还原mel频谱的,如何替换这个Vocoder成WaveFlow呢? 想看看效果能提升多少

iclementine commented 4 years ago

目前的 Deep Voice3 实现和源论文有一些差别,它预测的 mel 频谱是经过下采样的。因此不能直接用它预测的频谱作为 Waveflow 的输入。Griffin Lim 算法的输入事实上是 linear scale 的频谱,这也是目前的 Deep Voice 3 实现的输出。如果希望配合 Waveflow 使用的话,可能需要对模型进行一些修改,使它输出不经下采样的 mel 频谱。不过也可以用 Deep Voice 3 输出的 Linear scale 频谱转换为 mel 频谱再用 Waveflow 合成。不过需要注意的是频谱的预处理和后处理需要注意保持一致。

可以参考这个 issue. https://github.com/PaddlePaddle/Parakeet/issues/9

我们目前正在实现和论文完全一致的 Deep Voice 3,并且配合 WaveFlow 使用,计划下一次更新放出。

ymzlygw commented 4 years ago

目前的 Deep Voice3 实现和源论文有一些差别,它预测的 mel 频谱是经过下采样的。因此不能直接用它预测的频谱作为 Waveflow 的输入。Griffin Lim 算法的输入事实上是 linear scale 的频谱,这也是目前的 Deep Voice 3 实现的输出。如果希望配合 Waveflow 使用的话,可能需要对模型进行一些修改,使它输出不经下采样的 mel 频谱。不过也可以用 Deep Voice 3 输出的 Linear scale 频谱转换为 mel 频谱再用 Waveflow 合成。不过需要注意的是频谱的预处理和后处理需要注意保持一致。

可以参考这个 issue. #9

我们目前正在实现和论文完全一致的 Deep Voice 3,并且配合 WaveFlow 使用,计划下一次更新放出。

好的,谢谢,期待更新。