adelacvg / ttts

Train the next generation of TTS systems.
Mozilla Public License 2.0
161 stars 17 forks source link

vqvae多卡训练loss为nan #14

Closed WangGewu closed 8 months ago

WangGewu commented 8 months ago

使用master分支代码,在aishell3数据集上训练,使用单卡时,损失正常;使用2卡时,反向传播一次后,loss为nan

adelacvg commented 8 months ago

谢谢你的反馈。虽然我没有遇到这个问题,但可能是quantizer部分导致的。你可以尝试使用v2分支中的vqvae,使用了不同的结构与quantizer,训练更加稳定。

WangGewu commented 8 months ago

我又测试了一下,以accelerate的方式启动多卡训练,会出现loss为nan的情况;用torchrun启动,则不会出现。 此外,请问下,vqvae的loss(recon loss、commitment)降到多少时,就可以停止训练了?

adelacvg commented 8 months ago

取决于你的数据集大小与数据是否干净,对于master分支的vqvae,一般来说从重建的梅尔谱能看到清晰的谐波即可。