请教在aishell3上训练fastspeech2模型的相关问题

PaddlePaddle / PaddleSpeech

Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.

Apache License 2.0

10.99k stars 1.83k forks source link

Others

最近在aishell3数据集上训练fastspeech2模型的时候，遇到了几个问题想请教一下。

【说明】声码器是HiFiGAN，batch size为64，MFA使用的是1.x版本，在自己的数据集上训练的mfa模型

问题1：不论是基于frame-level还是phoneme-level，在duration, energy和pitch上:在大约50k step之后都出现了过拟合现象。从合成的音频来看，100k step后的音频质量要比50k step左右要好的。我觉得是不是因为：1）合成音频的效果还是要看mel spec； 2）pitch、duration和energy即使过拟合，但是loss并没有相差太多，所以效果总体来说还是更好？
问题2：从合成音频的效果来看，我觉得frame-level的效果要比phoneme-level的效果更好，但是开源fastspeech2的作者说phoneme-leve的结果更好
问题3：paddlespeech在训练的时候有出现上面的问题吗？paddlespeech实现的好像也是phoneme-level的模型，是处于什么考虑呢？

PaddlePaddle / PaddleSpeech

请教在aishell3上训练fastspeech2模型的相关问题 #3010

Others