fine-tune效果非常不好，loss和grad_norm_g的值是Nan

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.69k stars 705 forks source link

fine-tune效果非常不好，loss和grad_norm_g的值是Nan #486

Closed neuxys closed 10 months ago

neuxys commented 11 months ago

我按照这个教程进行的纯中文的fine-tune，也就是各个命令行中输入“C”的，输入一段30分钟的非常标准的中文长音频。由于GPU配置不高，只有将配置文件configs/modified_finetune_speaker.json中的batch_size设置为2的时候才能开始训练，不然都会报OOM。但是训练的结果令我很吃惊，日志中出现了很多Nan的数据，不知道是为什么，如下图所示

CHIHHSIANGLI commented 10 months ago

我输入也是快30分钟的语音但训练的时候报错untimeError: Argument #4: Padding size should be less than the corresponding input dimension, but got: padding (384, 384) at dimension 2 of input [1, 1, 320] 请问有知道是为什么吗

neuxys commented 10 months ago

我输入也是快30分钟的语音但训练的时候报错untimeError: Argument #4: Padding size should be less than the corresponding input dimension, but got: padding (384, 384) at dimension 2 of input [1, 1, 320] 请问有知道是为什么吗

看起来是输入的维度不太对，导致做padding的时候出错了。可以找一下提示这个错误的代码的位置看看