再弱弱的问一个问题，训练到多少算是完成的？ - Githubissues

PlayVoice / lora-svc

singing voice change based on whisper, and lora for singing voice clone

MIT License

617 stars 77 forks source link

再弱弱的问一个问题，训练到多少算是完成的？ #48

Open krysof opened 1 year ago

krysof commented 1 year ago

看代码好像是 10000 步？但step 22xxxx都没停。。。

MaxMax2016 commented 1 year ago

不会自动停止，一般通过看loss的范围，手动去停止

krysof commented 1 year ago

INFO - g 10.1374 m 5.2200 s 4.1075 d 0.1266 | step 233850

这样是不是差不多了？

MaxMax2016 commented 1 year ago

这个loss看上去不太好，而且训练了很久了吧？使用预训练模型在微调的话，lora: Fasle的话s应该在2.5左右、但是容易过拟合， lora: True的话s应该在3左右、不会过拟合。训练数据有样例没有呢？

krysof commented 1 year ago

就是纯按教程的流程跑的，有80分钟左右人声的音频，切片10秒一段，保证没空的。 lora 默认是 true 的吧，跑了24小时左右。训练数据样例是指 wav ?

MaxMax2016 commented 1 year ago

训练数据样例是指 wav ?是的

MaxMax2016 commented 1 year ago

可以使用tensorboard --logdir logs/ 查看和听训练效果

MaxMax2016 commented 1 year ago

80分钟左右人声，是一个人的还是多个人的？

krysof commented 1 year ago

数据如下，是同一个人的声音。链接: https://pan.baidu.com/s/1mxCgl1QsR1fCBIlFTigKzg?pwd=5h6j

虽然看不太懂，但看起来应该不妙吧？

MaxMax2016 commented 1 year ago

这个页面可以听训练效果

krysof commented 1 year ago

不知道为何。。。只有10个可以听， logs 里有好多个 log 的

MaxMax2016 commented 1 year ago

上面5个是模型生成的，下面5个是原始音频；5这个数字是设置的。

krysof commented 1 year ago

上下听上去差不多是不是就可以了？但怎么看出是哪个pt的？比如 234688 就用234680的?

MaxMax2016 commented 1 year ago

上面展示的都是最新的模型的效果，就是序号最大的那个

krysof commented 1 year ago

感谢回答这些小白问题，我再试试看看。。。

krysof commented 1 year ago

还是得再问一个，怎么增加试听数量，是在配置文件，还是 --samples_per_plugin=audio=100 ，但后者好像没有效果。

MaxMax2016 commented 1 year ago

https://github.com/PlayVoice/lora-svc/blob/main/config/maxgan.yaml#L58

krysof commented 1 year ago

链接: https://pan.baidu.com/s/1EhaxXueZFDGKZIoHhuFuhA?pwd=8wkz 提取码: 8wkz

好像怪怪的。。。

MaxMax2016 commented 1 year ago

网上那些是有强大的后期混音的，百万修音师那种；弄一个UI编辑F0是很有必要的，现在还没有白嫖的完全能用的F0提取模型和算法。

krysof commented 1 year ago

目前用 audution,不过缺少相应的基础知识，不知道要怎么改。。。