Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 705 forks source link

fine-tune效果非常不好,loss和grad_norm_g的值是Nan #486

Closed neuxys closed 10 months ago

neuxys commented 11 months ago

我按照这个教程进行的纯中文的fine-tune,也就是各个命令行中输入“C”的,输入一段30分钟的非常标准的中文长音频。由于GPU配置不高,只有将配置文件configs/modified_finetune_speaker.json中的batch_size设置为2的时候才能开始训练,不然都会报OOM。但是训练的结果令我很吃惊,日志中出现了很多Nan的数据,不知道是为什么,如下图所示 image image image

CHIHHSIANGLI commented 10 months ago

我输入也是快30分钟的语音但训练的时候报错untimeError: Argument #4: Padding size should be less than the corresponding input dimension, but got: padding (384, 384) at dimension 2 of input [1, 1, 320] 请问有知道是为什么吗

neuxys commented 10 months ago

我输入也是快30分钟的语音但训练的时候报错untimeError: Argument #4: Padding size should be less than the corresponding input dimension, but got: padding (384, 384) at dimension 2 of input [1, 1, 320] 请问有知道是为什么吗

看起来是输入的维度不太对,导致做padding的时候出错了。可以找一下提示这个错误的代码的位置看看