16k和48k的二选一还是两种都要？ - Githubissues

PlayVoice / lora-svc

singing voice change based on whisper, and lora for singing voice clone

MIT License

630 stars 78 forks source link

16k和48k的二选一还是两种都要？ #49

Open ccimage opened 1 year ago

ccimage commented 1 year ago

16k和48k的二选一还是两种都要？

KakaruHayate commented 1 year ago

都要，现在感觉48k可能是负优化，不如16k

我现在用好一些的数据去练一下48k模型，验证一下是否真的是负优化

h93910 commented 1 year ago

48K的大概要到练到多少才好？我到32000步感觉听上去和10000步的一样

MaxMax2016 commented 1 year ago

都要，现在感觉48k可能是负优化，不如16k

我现在用好一些的数据去练一下48k模型，验证一下是否真的是负优化

确实，偷懒了，低音会出现问题。看来还是要老老实实的，正正经经的训练48K模型。

KakaruHayate commented 1 year ago

48K的大概要到练到多少才好？我到32000步感觉听上去和10000步的一样

参数量小的模型是这样的，底模很容易被洗干净，试听差异不是很明显，可以推理一下试试看

KakaruHayate commented 1 year ago

都要，现在感觉48k可能是负优化，不如16k 我现在用好一些的数据去练一下48k模型，验证一下是否真的是负优化

确实，偷懒了，低音会出现问题。看来还是要老老实实的，正正经经的训练48K模型。

用的东北切蒲英的数据集训练的模型，效果还算理想，nsf-hifigan增强的意义不大了，断音问题明显。升级采样率是有意义的。

ccimage commented 1 year ago

训练时不到100步，模型的大小就不变了，这属于什么问题？我放的数据是某个歌手的歌曲分割为30s的1000多段

h93910 commented 1 year ago

模型

参数量小的模型是这样的，底模很容易被洗干净，试听差异不是很明显，可以推理一下试试看

目前练出来的48Ｋ感觉和目标原音也不太像，是不是因为我的数据集不是歌声的原因想试试16Ｋ的又一报错 ValueError: num_samples should be a positive integer value, but got num_samples=0 有人说路径不对，但查了下并没有发现哪不对

Kwisss commented 1 year ago

模型

参数量小的模型是这样的，底模很容易被洗干净，试听差异不是很明显，可以推理一下试试看

目前练出来的48Ｋ感觉和目标原音也不太像，是不是因为我的数据集不是歌声的原因想试试16Ｋ的又一报错 ValueError: num_samples should be a positive integer value, but got num_samples=0 有人说路径不对，但查了下并没有发现哪不对

indeed, I had this problem when I had the wav files in sub maps, the system allows for multiple speaker maps, not multiple maps for 1 speaker, if you understand what I mean.

It's definitely related too the wave files not being found.