是否可以更改模型架构或者其他方式提升合成音质？

openvpi / DiffSinger

An advanced singing voice synthesis system with high fidelity, expressiveness, controllability and flexibility based on DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism

Apache License 2.0

2.68k stars 283 forks source link

是否可以更改模型架构或者其他方式提升合成音质？ #189

Closed ILG2021 closed 4 months ago

ILG2021 commented 4 months ago

相比付费的sv声库以及hiddensinger，diffsinger声库的质量还是差一些，不知道大家有没有优化的方法？

flutydeer commented 4 months ago

你说的差是指哪些方面的？声库的质量和数据集有很大的关系

ILG2021 commented 4 months ago

https://jisang93.github.io/hiddensinger-demo/ 主要是音质和真实度方面，可以听下这里的对比效果。

yqzhishen commented 4 months ago

先问是不是，再问能不能。

你确定这个fork版本的DiffSinger不如HiddenSinger？你对比的是原始版本的DiffSinger，和现在的版本已经不可同日而语了；这个版本的DiffSinger基础架构有大量工业界同行和实际用户群体验证，HiddenSinger核心的LDM是否经过了验证？为何至今没有大规模运用？
你确定DiffSinger声库质量不如SV？有没有可能，是因为SV的训练数据质量比你听到的大部分DS声库的质量更好，而真正好的DS声库你没有听过？

做实验回答上述两个问题，才轮到讨论提升合成音质的事。

yxlllc commented 4 months ago

首先模型的质量更取决于训练数据和训练方法，而不是算法本身。你提到的hiddensinger用了 latent 声码器，这个只有非常大规模的高质量数据集才能有较好的效果（可能需要几百甚至几千小时的录音棚数据），而且需要事先预训练好，你如果出钱买数据和显卡我们就能训练，保证至少不比这个 hiddensinger 和 sv 差

ILG2021 commented 4 months ago

先问是不是，再问能不能。

你确定这个fork版本的DiffSinger不如HiddenSinger？你对比的是原始版本的DiffSinger，和现在的版本已经不可同日而语了；这个版本的DiffSinger基础架构有大量工业界同行和实际用户群体验证，HiddenSinger核心的LDM是否经过了验证？为何至今没有大规模运用？

你确定DiffSinger声库质量不如SV？有没有可能，是因为SV的训练数据质量比你听到的大部分DS声库的质量更好，而真正好的DS声库你没有听过？

做实验回答上述两个问题，才轮到讨论提升合成音质的事。

好的，那是我少见识了，能达到就好，后面我尝试优化。

ILG2021 commented 4 months ago

能指导下如何做高质量的声库吗？