Closed myluck001 closed 11 months ago
可能爆显存或者掉驱动了,更新一下驱动再重启试试看?
bs我都设置为4了,显存占用为6到8g,还是会出现这个报错,我用3080 10g的显卡,除了爆显存了还有其他的可能吗?我是真的想用这个Bert-VITS2,效果比单纯的VITS好多了
我用的是最新的驱动
同!我也遇到了一模一样的问题,蹲个后续
如果是训到一半毫无征兆地崩溃的话多半不是代码的问题,有几次显卡掉驱动也会报错训练终止的。不知道你们训练别的ai项目有没有遇到过这种情况?
哇老师您居然在,受宠若惊,感谢回复。 我的显卡是3060 12G,bs已经改到4了依然如此,而且就是会在训练到第48次的时候崩。我之前训练过sovits,一切正常,跑过stable diffusion也是一切正常。只是这个vits2真的很奇怪,我之前没用您的Bert-Vits2,用的单纯的vits一键包训练的时候,跟这个清空差不多:无论怎么修改bs,就是会中间中断,并且vits那个一键包是一定会爆显存。 vits的包是这个,热评第一就是我,也是同样的问题https://www.bilibili.com/video/BV1B841197Em 所以我怀疑就是vits哪里的问题…但我也真的是有点无奈了,真的很想运行vits。sovits就完全没问题。我现在去更新一下studio版本的驱动再试一下
之前的vits没有过这个问题,vits报错要报错的话直接报显存不足,调一下bs就好了,这个的话怎么调都没用。
这个也是一样的,要在configs文件夹的config.json里改bs,不要在输出目录里改
哇老师您居然在,受宠若惊,感谢回复。 我的显卡是3060 12G,bs已经改到4了依然如此,而且就是会在训练到第48次的时候崩。我之前训练过sovits,一切正常,跑过stable diffusion也是一切正常。只是这个vits2真的很奇怪,我之前没用您的Bert-Vits2,用的单纯的vits一键包训练的时候,跟这个清空差不多:无论怎么修改bs,就是会中间中断,并且vits那个一键包是一定会爆显存。 vits的包是这个,热评第一就是我,也是同样的问题https://www.bilibili.com/video/BV1B841197Em 所以我怀疑就是vits哪里的问题…但我也真的是有点无奈了,真的很想运行vits。sovits就完全没问题。我现在去更新一下studio版本的驱动再试一下
如果每次都在同一处地方报错的话得检查一下音频了
同。我用的是22G显存的2080G,刚刚跑的时候屏幕突然花屏了一下,然后显卡驱动就重启了(跑游戏和其他AI都没有这种问题),控制台显示了同样的消息
更新一下我的最新进展,我更换了studio的驱动程序,并且把bs调到了4,可以正常一直跑了。12G显存只能设置4,我试过6、8就会爆,确实挺吃显存的,但整体的效果非常好,感谢up大大
好像是驱动问题,我这边重新装一下驱动好像也好了,跑了一整天都没有报错
同。我用的是22G显存的2080G,刚刚跑的时候屏幕突然花屏了一下,然后显卡驱动就重启了(跑游戏和其他AI都没有这种问题),控制台显示了同样的消息
更新:我的似乎是显存问题(魔改22G显存的2080Ti),用NVidia Inspector 把显存频率降低了一些之后就能继续训练了,之前是一炼就死机的程度
12g的4070,改到2才跑起来☹多一点就爆
-- Process 0 terminated with the following error: Traceback (most recent call last): File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\venv\lib\site-packages\torch\multiprocessing\spawn.py", line 69, in _wrap fn(i, *args) File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\train_ms.py", line 193, in run train_and_evaluate(rank, epoch, hps, [net_g, net_d, net_dur_disc], [optim_g, optim_d, optim_dur_disc], [scheduler_g, scheduler_d, scheduler_dur_disc], scaler, [train_loader, eval_loader], logger, [writer, writer_eval]) File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\train_ms.py", line 293, in train_and_evaluate scaler.scale(loss_gen_all).backward() File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\venv\lib\site-packages\torch_tensor.py", line 488, in backward torch.autograd.backward( File "C:\Users\myluck\Desktop\AI\Bert-VITS2-Integration-Package\venv\lib\site-packages\torch\autograd__init__.py", line 197, in backward Variable._execution_engine.run_backward( # Calls into the C++ engine to run the backward pass RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR You can try to repro this exception using the following code snippet. If that doesn't trigger the error, please include your original repro script when reporting this issue. 经常训练到一半就报这个错误,大佬能帮我看看是什么问题吗?