openvpi / DiffSinger

An advanced singing voice synthesis system with high fidelity, expressiveness, controllability and flexibility based on DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism
Apache License 2.0
2.73k stars 288 forks source link

DiffSinger 制作合唱 #201

Closed Alistair-zhong closed 4 months ago

Alistair-zhong commented 4 months ago

很感谢你们开源 Diffsinger,这对我来说帮助很大。

我有一个疑虑希望开发团队能帮助解答下: 我能使用 diffsinger 直接训练合唱中一个声部的声库吗?比如用一个声部中多个人的合唱训练

yxlllc commented 4 months ago

可以确定的是,如果合唱中包含多种音高,模型是无法处理的。就算同一个声部内所有人的音高比较接近,也无法确定音高提取能正常工作,因为现在的系统完全是针对单声源设计的。另外预训练nsf-hifigan声码器也是完全用单人干声数据训练的。

Alistair-zhong commented 4 months ago

谢谢你的指点,你说的非常正确,现在的系统完全是针对单声源设计的。我使用默认的 rmvpe 音高提取算法训练合唱中的某一声部,在声学训练初期(0~10 K),能保留有部分合唱的声音,但多人声效果已经被明显削弱,10 个人的合唱只能听出 2~3 人的声音。当训练到 10K 之后,基本只能听见 1 个人的声音。也就是随着训练步数的增加,合唱效果是越来越弱,独唱的效果越来越强了。 还有最终合成出的声库,有很多怪音和电音,完全无法使用。

看到这个结果我有点失望,希望以后能有新的技术涌现来解决这个问题