openvpi / DiffSinger

An advanced singing voice synthesis system with high fidelity, expressiveness, controllability and flexibility based on DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism
Apache License 2.0
2.68k stars 283 forks source link

是否可以更改模型架构或者其他方式提升合成音质? #189

Closed ILG2021 closed 4 months ago

ILG2021 commented 4 months ago

相比付费的sv声库以及hiddensinger,diffsinger声库的质量还是差一些,不知道大家有没有优化的方法?

flutydeer commented 4 months ago

你说的差是指哪些方面的?声库的质量和数据集有很大的关系

ILG2021 commented 4 months ago

https://jisang93.github.io/hiddensinger-demo/ 主要是音质和真实度方面,可以听下这里的对比效果。

yqzhishen commented 4 months ago

先问是不是,再问能不能。

  1. 你确定这个fork版本的DiffSinger不如HiddenSinger?你对比的是原始版本的DiffSinger,和现在的版本已经不可同日而语了;这个版本的DiffSinger基础架构有大量工业界同行和实际用户群体验证,HiddenSinger核心的LDM是否经过了验证?为何至今没有大规模运用?
  2. 你确定DiffSinger声库质量不如SV?有没有可能,是因为SV的训练数据质量比你听到的大部分DS声库的质量更好,而真正好的DS声库你没有听过?

做实验回答上述两个问题,才轮到讨论提升合成音质的事。

yxlllc commented 4 months ago

首先模型的质量更取决于训练数据和训练方法,而不是算法本身。你提到的hiddensinger用了 latent 声码器,这个只有非常大规模的高质量数据集才能有较好的效果(可能需要几百甚至几千小时的录音棚数据),而且需要事先预训练好,你如果出钱买数据和显卡我们就能训练,保证至少不比这个 hiddensinger 和 sv 差

ILG2021 commented 4 months ago

先问是不是,再问能不能。

  1. 你确定这个fork版本的DiffSinger不如HiddenSinger?你对比的是原始版本的DiffSinger,和现在的版本已经不可同日而语了;这个版本的DiffSinger基础架构有大量工业界同行和实际用户群体验证,HiddenSinger核心的LDM是否经过了验证?为何至今没有大规模运用?
  2. 你确定DiffSinger声库质量不如SV?有没有可能,是因为SV的训练数据质量比你听到的大部分DS声库的质量更好,而真正好的DS声库你没有听过?

做实验回答上述两个问题,才轮到讨论提升合成音质的事。

好的,那是我少见识了,能达到就好,后面我尝试优化。

ILG2021 commented 4 months ago

能指导下如何做高质量的声库吗?