wqt2019 / tacotron-2_melgan

tacotron-2(pytorch) + melgan(pytorch) chinese TTS
MIT License
26 stars 6 forks source link

如何用训练好的模型合成语句 #9

Open lower-fish opened 3 years ago

lower-fish commented 3 years ago

您好,老师

我按照您的教程已经训练好了模型,但不懂如何使用。 比如我要用此模型合成一句自己准备的文本句子,而非预先准备的mel谱。我无从下手,盼赐教!

谢谢

wqt2019 commented 3 years ago

你需要先了解下整个语音合成的流程。如果t2和melgan都训练好了,那么给t2输入你要合成的文字的拼音或者音素,取决你用哪个标签训练的。得到mel谱后给到melgan就可以合成声音了

lower-fish commented 3 years ago

感谢赐教

yyHMA commented 3 years ago

你好,tacotron-2的readme说的是吧audio-xxx.npy和mel-xxx.npy复制到training/validing。那training/validing的数据和melgan里的config/default.yml中的 train: './data/train/wav/' 和validation: './data/valid/wav/'有什么关系。melgan的输入难道不是.npy文件,而是处理后的.mel文件?

yyHMA commented 3 years ago

您好,老师

我按照您的教程已经训练好了模型,但不懂如何使用。 比如我要用此模型合成一句自己准备的文本句子,而非预先准备的mel谱。我无从下手,盼赐教!

谢谢

你好,melgan的训练,输入的数据你是怎么处理?输入数据是npy文件还是mel文件?

wqt2019 commented 3 years ago

melgan的输入是mel谱,mel谱是二维数组,保存格式为.npy

yyHMA commented 3 years ago

melgan的数据集格式可以提供一下吗?

wqt2019 commented 3 years ago

原始音频和mel谱对应起来就可以了, https://github.com/seungwonpark/melgan

yyHMA commented 3 years ago

Step (0): python preprocess.py ,process the audios for t2 and melgan training . Step (1): cp audio-xxx.npy and mel-xxx.npy(real mel) to melgan's training/validing data-path .

这个Step (1),把audio-xxx.npy和 mel-xxx.npy分别放在train: './data/train/wav/' 和validation: './data/valid/wav/的路径里,这样的做法对吗

wqt2019 commented 3 years ago

是的,你试一下,我好几个月没弄melgan了。主要是音频数据和mel对应起来就可以了

wjMY commented 3 years ago

Step (0): python preprocess.py ,process the audios for t2 and melgan training . Step (1): cp audio-xxx.npy and mel-xxx.npy(real mel) to melgan's training/validing data-path .

这个Step (1),把audio-xxx.npy和 mel-xxx.npy分别放在train: './data/train/wav/' 和validation: './data/valid/wav/的路径里,这样的做法对吗

应该不是这样的,从dataloader.py的代码看,train和validation是两个分开的数据,audio.npy和mel.npy需要一起存在,在https://github.com/seungwonpark/melgan中说明了validation是验证集。