PlayVoice / lora-svc

singing voice change based on whisper, and lora for singing voice clone
MIT License
617 stars 77 forks source link

再弱弱的问一个问题,训练到多少算是完成的? #48

Open krysof opened 1 year ago

krysof commented 1 year ago

看代码好像是 10000 步?但step 22xxxx都没停。。。

MaxMax2016 commented 1 year ago

不会自动停止,一般通过看loss的范围,手动去停止

krysof commented 1 year ago

INFO - g 10.1374 m 5.2200 s 4.1075 d 0.1266 | step 233850

这样是不是差不多了?

MaxMax2016 commented 1 year ago

这个loss看上去不太好,而且训练了很久了吧?使用预训练模型在微调的话,lora: Fasle的话s应该在2.5左右、但是容易过拟合, lora: True的话s应该在3左右 、不会过拟合。训练数据有样例没有呢?

krysof commented 1 year ago

就是纯按教程的流程跑的,有80分钟左右人声的音频,切片10秒一段,保证没空的。 lora 默认是 true 的吧,跑了24小时左右。训练数据样例是指 wav ?

MaxMax2016 commented 1 year ago

训练数据样例是指 wav ?是的

MaxMax2016 commented 1 year ago

可以使用tensorboard --logdir logs/ 查看和听训练效果

MaxMax2016 commented 1 year ago

80分钟左右人声,是一个人的还是多个人的?

krysof commented 1 year ago

数据如下,是同一个人的声音。 链接: https://pan.baidu.com/s/1mxCgl1QsR1fCBIlFTigKzg?pwd=5h6j

image 虽然看不太懂,但看起来应该不妙吧?

MaxMax2016 commented 1 year ago

这个页面可以听训练效果

krysof commented 1 year ago
image

不知道为何。。。只有10个可以听, logs 里有好多个 log 的

MaxMax2016 commented 1 year ago

上面5个是模型生成的,下面5个是原始音频;5这个数字是设置的。

krysof commented 1 year ago

上下听上去差不多是不是就可以了?但怎么看出是哪个pt的?比如 234688 就用234680的?

MaxMax2016 commented 1 year ago

上面展示的都是最新的模型的效果,就是序号最大的那个

krysof commented 1 year ago

感谢回答这些小白问题,我再试试看看。。。

krysof commented 1 year ago

还是得再问一个,怎么增加试听数量,是在配置文件,还是 --samples_per_plugin=audio=100 ,但后者好像没有效果。

MaxMax2016 commented 1 year ago

https://github.com/PlayVoice/lora-svc/blob/main/config/maxgan.yaml#L58

krysof commented 1 year ago

链接: https://pan.baidu.com/s/1EhaxXueZFDGKZIoHhuFuhA?pwd=8wkz 提取码: 8wkz

好像怪怪的。。。

MaxMax2016 commented 1 year ago

网上那些是有强大的后期混音的,百万修音师那种;弄一个UI编辑F0是很有必要的,现在还没有白嫖的完全能用的F0提取模型和算法。

krysof commented 1 year ago

目前用 audution,不过缺少相应的基础知识,不知道要怎么改。。。