PlayVoice / lora-svc

singing voice change based on whisper, and lora for singing voice clone
MIT License
630 stars 78 forks source link

16k和48k的二选一还是两种都要? #49

Open ccimage opened 1 year ago

ccimage commented 1 year ago

16k和48k的二选一还是两种都要?

KakaruHayate commented 1 year ago

都要,现在感觉48k可能是负优化,不如16k

我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化

h93910 commented 1 year ago

48K的大概要到练到多少才好?我到32000步感觉听上去和10000步的一样

MaxMax2016 commented 1 year ago

都要,现在感觉48k可能是负优化,不如16k

我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化

确实,偷懒了,低音会出现问题。看来还是要老老实实的,正正经经的训练48K模型。

KakaruHayate commented 1 year ago

48K的大概要到练到多少才好?我到32000步感觉听上去和10000步的一样

参数量小的模型是这样的,底模很容易被洗干净,试听差异不是很明显,可以推理一下试试看

KakaruHayate commented 1 year ago

都要,现在感觉48k可能是负优化,不如16k 我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化

确实,偷懒了,低音会出现问题。看来还是要老老实实的,正正经经的训练48K模型。

svc_out(1).zip

用的东北切蒲英的数据集训练的模型,效果还算理想,nsf-hifigan增强的意义不大了,断音问题明显。 升级采样率是有意义的。

ccimage commented 1 year ago

训练时不到100步,模型的大小就不变了,这属于什么问题? 我放的数据是某个歌手的歌曲分割为30s的1000多段

h93910 commented 1 year ago

模型

参数量小的模型是这样的,底模很容易被洗干净,试听差异不是很明显,可以推理一下试试看

目前练出来的48K感觉和目标原音也不太像,是不是因为我的数据集不是歌声的原因 想试试16K的又一报错 ValueError: num_samples should be a positive integer value, but got num_samples=0 有人说路径不对,但查了下并没有发现哪不对

Kwisss commented 1 year ago

模型

参数量小的模型是这样的,底模很容易被洗干净,试听差异不是很明显,可以推理一下试试看

目前练出来的48K感觉和目标原音也不太像,是不是因为我的数据集不是歌声的原因 想试试16K的又一报错 ValueError: num_samples should be a positive integer value, but got num_samples=0 有人说路径不对,但查了下并没有发现哪不对

indeed, I had this problem when I had the wav files in sub maps, the system allows for multiple speaker maps, not multiple maps for 1 speaker, if you understand what I mean.

It's definitely related too the wave files not being found.