vqvae多卡训练loss为nan

adelacvg / ttts

Train the next generation of TTS systems.

Mozilla Public License 2.0

161 stars 17 forks source link

Closed WangGewu closed 8 months ago

WangGewu commented 8 months ago

使用master分支代码，在aishell3数据集上训练，使用单卡时，损失正常；使用2卡时，反向传播一次后，loss为nan

adelacvg commented 8 months ago

谢谢你的反馈。虽然我没有遇到这个问题，但可能是quantizer部分导致的。你可以尝试使用v2分支中的vqvae，使用了不同的结构与quantizer，训练更加稳定。

WangGewu commented 8 months ago

我又测试了一下，以accelerate的方式启动多卡训练，会出现loss为nan的情况；用torchrun启动，则不会出现。此外，请问下，vqvae的loss(recon loss、commitment)降到多少时，就可以停止训练了？

adelacvg commented 8 months ago

取决于你的数据集大小与数据是否干净，对于master分支的vqvae，一般来说从重建的梅尔谱能看到清晰的谐波即可。