Closed Alistair-zhong closed 4 months ago
可以确定的是,如果合唱中包含多种音高,模型是无法处理的。就算同一个声部内所有人的音高比较接近,也无法确定音高提取能正常工作,因为现在的系统完全是针对单声源设计的。另外预训练nsf-hifigan声码器也是完全用单人干声数据训练的。
谢谢你的指点,你说的非常正确,现在的系统完全是针对单声源设计的。我使用默认的 rmvpe 音高提取算法训练合唱中的某一声部,在声学训练初期(0~10 K),能保留有部分合唱的声音,但多人声效果已经被明显削弱,10 个人的合唱只能听出 2~3 人的声音。当训练到 10K 之后,基本只能听见 1 个人的声音。也就是随着训练步数的增加,合唱效果是越来越弱,独唱的效果越来越强了。 还有最终合成出的声库,有很多怪音和电音,完全无法使用。
看到这个结果我有点失望,希望以后能有新的技术涌现来解决这个问题
很感谢你们开源 Diffsinger,这对我来说帮助很大。
我有一个疑虑希望开发团队能帮助解答下: 我能使用 diffsinger 直接训练合唱中一个声部的声库吗?比如用一个声部中多个人的合唱训练