如何用训练好的模型合成语句

wqt2019 / tacotron-2_melgan

tacotron-2(pytorch) + melgan(pytorch) chinese TTS

MIT License

26 stars 6 forks source link

如何用训练好的模型合成语句 #9

Open lower-fish opened 3 years ago

lower-fish commented 3 years ago

您好，老师

我按照您的教程已经训练好了模型，但不懂如何使用。比如我要用此模型合成一句自己准备的文本句子，而非预先准备的mel谱。我无从下手，盼赐教！

谢谢

wqt2019 commented 3 years ago

你需要先了解下整个语音合成的流程。如果t2和melgan都训练好了，那么给t2输入你要合成的文字的拼音或者音素，取决你用哪个标签训练的。得到mel谱后给到melgan就可以合成声音了

lower-fish commented 3 years ago

感谢赐教

yyHMA commented 3 years ago

你好，tacotron-2的readme说的是吧audio-xxx.npy和mel-xxx.npy复制到training/validing。那training/validing的数据和melgan里的config/default.yml中的 train: './data/train/wav/' 和validation: './data/valid/wav/'有什么关系。melgan的输入难道不是.npy文件，而是处理后的.mel文件？

yyHMA commented 3 years ago

您好，老师

我按照您的教程已经训练好了模型，但不懂如何使用。比如我要用此模型合成一句自己准备的文本句子，而非预先准备的mel谱。我无从下手，盼赐教！

谢谢

你好，melgan的训练，输入的数据你是怎么处理？输入数据是npy文件还是mel文件？

wqt2019 commented 3 years ago

melgan的输入是mel谱，mel谱是二维数组，保存格式为.npy

yyHMA commented 3 years ago

melgan的数据集格式可以提供一下吗？

wqt2019 commented 3 years ago

原始音频和mel谱对应起来就可以了，　https://github.com/seungwonpark/melgan

yyHMA commented 3 years ago

Step (0): python preprocess.py ，process the audios for t2 and melgan training . Step (1): cp audio-xxx.npy and mel-xxx.npy(real mel) to melgan's training/validing data-path .

这个Step (1)，把audio-xxx.npy和 mel-xxx.npy分别放在train: './data/train/wav/' 和validation: './data/valid/wav/的路径里，这样的做法对吗

wqt2019 commented 3 years ago

是的，你试一下，我好几个月没弄melgan了。主要是音频数据和mel对应起来就可以了

wjMY commented 3 years ago

Step (0): python preprocess.py ，process the audios for t2 and melgan training . Step (1): cp audio-xxx.npy and mel-xxx.npy(real mel) to melgan's training/validing data-path .

这个Step (1)，把audio-xxx.npy和 mel-xxx.npy分别放在train: './data/train/wav/' 和validation: './data/valid/wav/的路径里，这样的做法对吗

应该不是这样的，从dataloader.py的代码看，train和validation是两个分开的数据，audio.npy和mel.npy需要一起存在，在https://github.com/seungwonpark/melgan中说明了validation是验证集。