[Help]: 为何扩散模型生成的效果要远好於 sovits 的模型?

happyman2025 commented 1 year ago

请勾选下方的确认框。

[X] 我已仔细阅读README.md和wiki中的Quick solution。
[X] 我已通过各种搜索引擎排查问题，我要提出的问题并不常见。
[X] 我未在使用由第三方用户提供的一键包/环境包。

系统平台版本号

win 10

GPU 型号

3060 12g

Python版本

3.10.6

PyTorch版本

2.0.1+cu118

sovits分支

4.0(默认)

数据集来源（用于判断数据集质量）

自行录制，一半是歌声

出现问题的环节或执行的命令

训练 so-vits-svc 4.0 模型

问题描述

我是新手，使用 so-vits-svc 4.0 推理 webUI，为何 diffusion 模型生成的效果要远好於 sovits 的模型?

一般使用30至45分钟的资料，使用预设 config，没有修改批次大小， sovits 模型训练约20万步，推理出来的歌声总是沙哑，或突然出现电流声音.

但是 diffusion 模型只训练了3万步，推理出来的歌声已很不错，虽还不够完美，但比 sovits 模型要好很多。

混合 sovits 模型和 diffusion 模型後，感觉比只用 diffusion 要差一些，但比只用sovits 模型要好。

为什麽会有这情况，是否训练不够多？

日志

N/A

截图`so-vits-svc`、`logs/44k`文件夹并粘贴到此处

补充说明

No response

ylzz1997 commented 1 year ago

因为diffusion在高质量数据下的上限比sovits要高，推理起来听着更好也正常但是diffusion对UVR的数据集鲁棒性很差

happyman2025 commented 1 year ago

因为diffusion在高质量数据下的上限比sovits要高，推理起来听着更好也正常但是diffusion对UVR的数据集鲁棒性很差

原来还有这个因素，下次使用 UVR 数据试试 diffusion 的效果。

iiallgaii commented 1 year ago

请勾选下方的确认框。
* [x]  我已仔细阅读[README.md](https://github.com/svc-develop-team/so-vits-svc/blob/4.0/README_zh_CN.md)和[wiki中的Quick solution](https://github.com/svc-develop-team/so-vits-svc/wiki/Quick-solution)。

* [x]  我已通过各种搜索引擎排查问题，我要提出的问题并不常见。

* [x]  我未在使用由第三方用户提供的一键包/环境包。
系统平台版本号

win 10

GPU 型号

3060 12g

Python版本

3.10.6

PyTorch版本

2.0.1+cu118

sovits分支

4.0(默认)

数据集来源（用于判断数据集质量）

自行录制，一半是歌声

出现问题的环节或执行的命令

训练 so-vits-svc 4.0 模型

问题描述

我是新手，使用 so-vits-svc 4.0 推理 webUI，为何 diffusion 模型生成的效果要远好於 sovits 的模型?

一般使用30至45分钟的资料，使用预设 config，没有修改批次大小， sovits 模型训练约20万步，推理出来的歌声总是沙哑，或突然出现电流声音.

但是 diffusion 模型只训练了3万步，推理出来的歌声已很不错，虽还不够完美，但比 sovits 模型要好很多。

混合 sovits 模型和 diffusion 模型後，感觉比只用 diffusion 要差一些，但比只用sovits 模型要好。

为什麽会有这情况，是否训练不够多？

日志
N/A
截图so-vits-svc、logs/44k文件夹并粘贴到此处

补充说明

No response

hi , can you share your diffusion.yaml ?

model: k_step_max: 0 n_chans: 512 n_hidden: 256 n_layers: 20 n_spk: 1 timesteps: 1000 <---- you set 1000 here too? type: Diffusion use_pitch_aug: true spk: Ai_Beyond_KaKui: 0 train: amp_dtype: fp32 batch_size: 48 cache_all_data: true cache_device: cuda cache_fp16: true decay_step: 100000 epochs: 100000 gamma: 0.5 interval_force_save: 2000 interval_log: 10 interval_val: 2000 lr: 0.0002 num_workers: 2 save_opt: false weight_decay: 0

svc-develop-team / so-vits-svc