经常训练到训练到一半就报错了RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

myluck001 commented 1 year ago

-- Process 0 terminated with the following error: Traceback (most recent call last): File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\venv\lib\site-packages\torch\multiprocessing\spawn.py", line 69, in _wrap fn(i, *args) File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\train_ms.py", line 193, in run train_and_evaluate(rank, epoch, hps, [net_g, net_d, net_dur_disc], [optim_g, optim_d, optim_dur_disc], [scheduler_g, scheduler_d, scheduler_dur_disc], scaler, [train_loader, eval_loader], logger, [writer, writer_eval]) File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\train_ms.py", line 293, in train_and_evaluate scaler.scale(loss_gen_all).backward() File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\venv\lib\site-packages\torch_tensor.py", line 488, in backward torch.autograd.backward( File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\venv\lib\site-packages\torch\autograd__init__.py", line 197, in backward Variable._execution_engine.run_backward( # Calls into the C++ engine to run the backward pass RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR You can try to repro this exception using the following code snippet. If that doesn't trigger the error, please include your original repro script when reporting this issue. 经常训练到一半就报这个错误，大佬能帮我看看是什么问题吗？

YYuX-1145 commented 1 year ago

可能爆显存或者掉驱动了，更新一下驱动再重启试试看？

myluck001 commented 1 year ago

bs我都设置为4了,显存占用为6到8g，还是会出现这个报错，我用3080 10g的显卡，除了爆显存了还有其他的可能吗？我是真的想用这个Bert-VITS2，效果比单纯的VITS好多了

myluck001 commented 1 year ago

我用的是最新的驱动

wanglewei commented 1 year ago

同！我也遇到了一模一样的问题，蹲个后续未标题-1

YYuX-1145 commented 1 year ago

如果是训到一半毫无征兆地崩溃的话多半不是代码的问题，有几次显卡掉驱动也会报错训练终止的。不知道你们训练别的ai项目有没有遇到过这种情况？

wanglewei commented 1 year ago

哇老师您居然在，受宠若惊，感谢回复。我的显卡是3060 12G，bs已经改到4了依然如此，而且就是会在训练到第48次的时候崩。我之前训练过sovits，一切正常，跑过stable diffusion也是一切正常。只是这个vits2真的很奇怪，我之前没用您的Bert-Vits2，用的单纯的vits一键包训练的时候，跟这个清空差不多：无论怎么修改bs，就是会中间中断，并且vits那个一键包是一定会爆显存。 vits的包是这个，热评第一就是我，也是同样的问题https://www.bilibili.com/video/BV1B841197Em 所以我怀疑就是vits哪里的问题…但我也真的是有点无奈了，真的很想运行vits。sovits就完全没问题。我现在去更新一下studio版本的驱动再试一下

myluck001 commented 1 year ago

之前的vits没有过这个问题，vits报错要报错的话直接报显存不足，调一下bs就好了，这个的话怎么调都没用。

YYuX-1145 commented 1 year ago

这个也是一样的，要在configs文件夹的config.json里改bs，不要在输出目录里改

YYuX-1145 commented 1 year ago

哇老师您居然在，受宠若惊，感谢回复。我的显卡是3060 12G，bs已经改到4了依然如此，而且就是会在训练到第48次的时候崩。我之前训练过sovits，一切正常，跑过stable diffusion也是一切正常。只是这个vits2真的很奇怪，我之前没用您的Bert-Vits2，用的单纯的vits一键包训练的时候，跟这个清空差不多：无论怎么修改bs，就是会中间中断，并且vits那个一键包是一定会爆显存。 vits的包是这个，热评第一就是我，也是同样的问题https://www.bilibili.com/video/BV1B841197Em 所以我怀疑就是vits哪里的问题…但我也真的是有点无奈了，真的很想运行vits。sovits就完全没问题。我现在去更新一下studio版本的驱动再试一下

如果每次都在同一处地方报错的话得检查一下音频了

ZYFDroid commented 1 year ago

同。我用的是22G显存的2080G，刚刚跑的时候屏幕突然花屏了一下，然后显卡驱动就重启了（跑游戏和其他AI都没有这种问题），控制台显示了同样的消息

wanglewei commented 1 year ago

更新一下我的最新进展，我更换了studio的驱动程序，并且把bs调到了4，可以正常一直跑了。12G显存只能设置4，我试过6、8就会爆，确实挺吃显存的，但整体的效果非常好，感谢up大大

myluck001 commented 1 year ago

好像是驱动问题，我这边重新装一下驱动好像也好了，跑了一整天都没有报错

ZYFDroid commented 1 year ago

同。我用的是22G显存的2080G，刚刚跑的时候屏幕突然花屏了一下，然后显卡驱动就重启了（跑游戏和其他AI都没有这种问题），控制台显示了同样的消息

更新：我的似乎是显存问题（魔改22G显存的2080Ti），用NVidia Inspector 把显存频率降低了一些之后就能继续训练了，之前是一炼就死机的程度

Slldyd2077 commented 1 year ago

12g的4070，改到2才跑起来☹多一点就爆

YYuX-1145 / Bert-VITS2-Integration-package

经常训练到训练到一半就报错了RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR #13