Closed ILG2021 closed 4 months ago
你说的差是指哪些方面的?声库的质量和数据集有很大的关系
https://jisang93.github.io/hiddensinger-demo/ 主要是音质和真实度方面,可以听下这里的对比效果。
先问是不是,再问能不能。
做实验回答上述两个问题,才轮到讨论提升合成音质的事。
首先模型的质量更取决于训练数据和训练方法,而不是算法本身。你提到的hiddensinger用了 latent 声码器,这个只有非常大规模的高质量数据集才能有较好的效果(可能需要几百甚至几千小时的录音棚数据),而且需要事先预训练好,你如果出钱买数据和显卡我们就能训练,保证至少不比这个 hiddensinger 和 sv 差
先问是不是,再问能不能。
- 你确定这个fork版本的DiffSinger不如HiddenSinger?你对比的是原始版本的DiffSinger,和现在的版本已经不可同日而语了;这个版本的DiffSinger基础架构有大量工业界同行和实际用户群体验证,HiddenSinger核心的LDM是否经过了验证?为何至今没有大规模运用?
- 你确定DiffSinger声库质量不如SV?有没有可能,是因为SV的训练数据质量比你听到的大部分DS声库的质量更好,而真正好的DS声库你没有听过?
做实验回答上述两个问题,才轮到讨论提升合成音质的事。
好的,那是我少见识了,能达到就好,后面我尝试优化。
能指导下如何做高质量的声库吗?
相比付费的sv声库以及hiddensinger,diffsinger声库的质量还是差一些,不知道大家有没有优化的方法?