Closed WangGewu closed 8 months ago
谢谢你的反馈。虽然我没有遇到这个问题,但可能是quantizer部分导致的。你可以尝试使用v2分支中的vqvae,使用了不同的结构与quantizer,训练更加稳定。
我又测试了一下,以accelerate的方式启动多卡训练,会出现loss为nan的情况;用torchrun启动,则不会出现。 此外,请问下,vqvae的loss(recon loss、commitment)降到多少时,就可以停止训练了?
取决于你的数据集大小与数据是否干净,对于master分支的vqvae,一般来说从重建的梅尔谱能看到清晰的谐波即可。
使用master分支代码,在aishell3数据集上训练,使用单卡时,损失正常;使用2卡时,反向传播一次后,loss为nan