Open ccimage opened 1 year ago
都要,现在感觉48k可能是负优化,不如16k
我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化
48K的大概要到练到多少才好?我到32000步感觉听上去和10000步的一样
都要,现在感觉48k可能是负优化,不如16k
我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化
确实,偷懒了,低音会出现问题。看来还是要老老实实的,正正经经的训练48K模型。
48K的大概要到练到多少才好?我到32000步感觉听上去和10000步的一样
参数量小的模型是这样的,底模很容易被洗干净,试听差异不是很明显,可以推理一下试试看
都要,现在感觉48k可能是负优化,不如16k 我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化
确实,偷懒了,低音会出现问题。看来还是要老老实实的,正正经经的训练48K模型。
用的东北切蒲英的数据集训练的模型,效果还算理想,nsf-hifigan增强的意义不大了,断音问题明显。 升级采样率是有意义的。
训练时不到100步,模型的大小就不变了,这属于什么问题? 我放的数据是某个歌手的歌曲分割为30s的1000多段
模型
参数量小的模型是这样的,底模很容易被洗干净,试听差异不是很明显,可以推理一下试试看
目前练出来的48K感觉和目标原音也不太像,是不是因为我的数据集不是歌声的原因 想试试16K的又一报错 ValueError: num_samples should be a positive integer value, but got num_samples=0 有人说路径不对,但查了下并没有发现哪不对
模型
参数量小的模型是这样的,底模很容易被洗干净,试听差异不是很明显,可以推理一下试试看
目前练出来的48K感觉和目标原音也不太像,是不是因为我的数据集不是歌声的原因 想试试16K的又一报错 ValueError: num_samples should be a positive integer value, but got num_samples=0 有人说路径不对,但查了下并没有发现哪不对
indeed, I had this problem when I had the wav files in sub maps, the system allows for multiple speaker maps, not multiple maps for 1 speaker, if you understand what I mean.
It's definitely related too the wave files not being found.
16k和48k的二选一还是两种都要?