Closed 443127316 closed 2 years ago
您好,感谢您的关注。 tacotron是自回归模型,推荐你使用非回归模型,例如fastspeech
https://github.com/ranchlai/mandarin-tts https://github.com/NVIDIA/mellotron https://github.com/NVIDIA/NeMo/tree/main/examples/tts 推荐你试试上面的。 另外,我之前试过用多人数据集(40多人,一共4w句)训练fastspeech2,在adaptive时候,只需10句就能很好的克隆音色。
首先感谢老师分享这么好的项目,我在运行adaptive分支的时候,采用了项目提供的预训练模型进行微调训练,微调数据分别测试aishell3和magic data以及 D8,在执行tacotron_synthesize.py的时候,使用V100 GPU 单卡,生成梅尔频谱耗时 3秒,经过Griffin声码器耗时6秒(如果改用waveRNN耗时9秒),问题如下:
1.Tacotron2是否本身就这么慢,可能让整个链路调整到500ms以内吗? 2.如果想要优化速度的话,要从什么方向入手。
再次感谢老师的帮助。