fishaudio / fish-diffusion

An easy to understand TTS / SVS / SVC framework
https://diff.fish.audio
MIT License
662 stars 87 forks source link

HiFiSVC训练问题 #47

Closed Stardust-minus closed 1 year ago

Stardust-minus commented 1 year ago

如题。 https://wandb.ai/stardust-minus/HiFiSVC 在开了5次训练之后发现没有一个收敛成功的,期间尝试了降低lr,缩减speaker等等操作。 正在尝试修改网络参数,请问如何去修改model config来增加参数量?

leng-yue commented 1 year ago

我更倾向于是数据预处理的问题.. 你最好还是压缩上传下数据, 我来 debug...

Stardust-minus commented 1 year ago

我更倾向于是数据预处理的问题.. 你最好还是压缩上传下数据, 我来 debug...

https://openi.pcl.ac.cn/attachments/4d7342ae-be05-4ceb-aa95-37ef57192209?type=0 训练数据

leng-yue commented 1 year ago

在下载了

leng-yue commented 1 year ago

等我跑完手上的模型应该要 40h 左右, 急的话我给你单独开个炉...

Stardust-minus commented 1 year ago

等我跑完手上的模型应该要 40h 左右, 急的话我给你单独开个炉...

不急

leng-yue commented 1 year ago

训练已开始, 九尾保佑不要炸炉 (https://api.wandb.ai/links/fish-audio/aem9meb5)

leng-yue commented 1 year ago

我没遇到你的问题, 但是 loss 已经爆炸3锅了, 可能需要一些调整.

Stardust-minus commented 1 year ago

我没遇到你的问题, 但是 loss 已经爆炸3锅了, 可能需要一些调整.

悲(

Stardust-minus commented 1 year ago

Autovocoder ready for training?

leng-yue commented 1 year ago

我这边还在测试, 在调整结构, 不推荐你现在跑.

Stardust-minus commented 1 year ago

我这边还在测试, 在调整结构, 不推荐你现在跑.

OK,啥时候能跑了告诉我一声() 我目前VITS跑完了,打算跑个1024网络+Crepe的diff娱乐一下(A800是真的快)

Yurzi commented 1 year ago

能问下用hifisvc训练很吃显存吗?batch_size = 20的情况下 都把32G显存瞬间吃满了?

leng-yue commented 1 year ago

你数据集带了 segment size 么, 我 20 bs 大概是 10G

Yurzi commented 1 year ago

用得utils里的get_dataset_from_sub_folder。 原来base/dataset/hifi_svc.py里的那个segment.size是这个意思啊😱。不过已经回去练diffsvc了,等炸炉了再试试

leng-yue commented 1 year ago

NaN 问题应该基本解决了, 等我跑两天没问题推上来

leng-yue commented 1 year ago

修好了, 不会 NaN 了, 佬你试试

Stardust-minus commented 1 year ago

修好了, 不会 NaN 了, 佬你试试

确实是不Nan了,loss飞到无限了…… https://wandb.ai/stardust-minus/HiFiSVC/runs/7gvt4fxc?workspace=user-

leng-yue commented 1 year ago

主打一个自由, 其实飞无限的 bug 也解决了, 在 fix-infinity-loss 分支 (. 绷, 200k NaN 了

Stardust-minus commented 1 year ago

绷不住 等我跑完手头1024x50的Diffusion看看另一个branch

Stardust-minus commented 1 year ago

Diff的1024跑完了,500M参数大概能吃满80G显存。相比768还是有提升的,但是和算力开销不成正比了已经。 然后,fix-infinity-loss 分支也inf了 悲(https://wandb.ai/stardust-minus/HiFiSVC/runs/2hnxiciq?workspace=user-)

leng-yue commented 1 year ago

悲 ( 不过 1024 也太刺激了

Stardust-minus commented 1 year ago

我摆了,先搁置吧() 冷佬快点把Autovocoder端上来吧()