openvpi / DiffSinger

An advanced singing voice synthesis system with high fidelity, expressiveness, controllability and flexibility based on DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism
Apache License 2.0
2.64k stars 275 forks source link

使用ddsp #71

Closed detectiveli closed 1 year ago

detectiveli commented 1 year ago

您好啊~

我根据这个ddps生成了jit文件,但是调用的时候报错:

image

感觉是jit文件没有保存好。保存的时候我使用的是pytorch 1.8.2(同本程序的教程)

期待您的回复

yxlllc commented 1 year ago

可能是低版本torch jit不支持复数张量

detectiveli commented 1 year ago

可能是低版本torch jit不支持复数张量

Yes! torchvision to 1.11.0 (cuda113)再保存jit就好了。对了,顺便请问一下,ddps需要的acoustic model 需要重新训练吗?

yqzhishen commented 1 year ago

首先纠正一下,是ddsp不是ddps。 如果你的ddsp的mel参数和音频采样率和你此前训练的声学模型完全一致的话,声学模型是不需要重新训练的。

detectiveli commented 1 year ago

首先纠正一下,是ddsp不是ddps。 如果你的ddsp的mel参数和音频采样率和你此前训练的声学模型完全一致的话,声学模型是不需要重新训练的。

哈 ddsp,不好意思了。

其实我本来是想训练原始diffsinger的vocoder来提升声音质量(看起来原版是NsfHifiGAN)。不过在他的issues里面发现他说这部分卖给公司了。我刚参照本程序训练了一份ddsp(44100hz),也可以做驱动。但是他应该是需要ph级别的label,我试一下ddsp可不可以放回原来的程序里做word级别的预测。

非常感谢!