如何Combine DeepVoice3+WaveFlow?

ymzlygw commented 4 years ago

能请教下如何结合 DeepVoice3 + WaveFlow这两个框架么？ DeepVoice3默认是使用Griffin-Lim 算法还原mel频谱的，如何替换这个Vocoder成WaveFlow呢？想看看效果能提升多少

iclementine commented 4 years ago

目前的 Deep Voice3 实现和源论文有一些差别，它预测的 mel 频谱是经过下采样的。因此不能直接用它预测的频谱作为 Waveflow 的输入。Griffin Lim 算法的输入事实上是 linear scale 的频谱，这也是目前的 Deep Voice 3 实现的输出。如果希望配合 Waveflow 使用的话，可能需要对模型进行一些修改，使它输出不经下采样的 mel 频谱。不过也可以用 Deep Voice 3 输出的 Linear scale 频谱转换为 mel 频谱再用 Waveflow 合成。不过需要注意的是频谱的预处理和后处理需要注意保持一致。

可以参考这个 issue. https://github.com/PaddlePaddle/Parakeet/issues/9

我们目前正在实现和论文完全一致的 Deep Voice 3，并且配合 WaveFlow 使用，计划下一次更新放出。

ymzlygw commented 4 years ago

目前的 Deep Voice3 实现和源论文有一些差别，它预测的 mel 频谱是经过下采样的。因此不能直接用它预测的频谱作为 Waveflow 的输入。Griffin Lim 算法的输入事实上是 linear scale 的频谱，这也是目前的 Deep Voice 3 实现的输出。如果希望配合 Waveflow 使用的话，可能需要对模型进行一些修改，使它输出不经下采样的 mel 频谱。不过也可以用 Deep Voice 3 输出的 Linear scale 频谱转换为 mel 频谱再用 Waveflow 合成。不过需要注意的是频谱的预处理和后处理需要注意保持一致。

可以参考这个 issue. #9

我们目前正在实现和论文完全一致的 Deep Voice 3，并且配合 WaveFlow 使用，计划下一次更新放出。

好的，谢谢，期待更新。

PaddlePaddle / Parakeet

如何Combine DeepVoice3+WaveFlow? #21