Fried-Rice-Lab / FriedRiceLab

Official repository of the Fried Rice Lab, including code resources of the following our works: ESWT [arXiv], etc. This repository also implements many useful features and out-of-the-box image restoration models.
MIT License
205 stars 31 forks source link

GPU #25

Closed Qqsoe closed 4 months ago

Qqsoe commented 5 months ago

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 152.00 MiB (GPU 0; 23.65 GiB total capacity; 21.52 GiB already allocated; 134.25 MiB free; 22.66 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 两张4090,请问为什么一轮也没跑就提示这样了呢,解答以一下吧,谢谢

jnpngshiii commented 4 months ago

这是爆显存了, 原因可能是:

  1. 使用了过大的 gt_size
  2. 使用了过大的 batch_size_per_gpu
  3. 或者你修改了模型参数, 比如: 增加了模型宽度或者深度

可以自己排查一下.

luierlyy commented 3 months ago

打扰了。想问一下您这个问题现在已经解决了么,试着复现SAN时遇到了相似的问题,但怎么改gt_size和batch都没有用

jnpngshiii commented 3 months ago

打扰了。想问一下您这个问题现在已经解决了么,试着复现SAN时遇到了相似的问题,但怎么改gt_size和batch都没有用

SAN 好像是蛮大的一个模型。你的设备是什么呢?

luierlyy commented 3 months ago

打扰了。想问一下您这个问题现在已经解决了么,试着复现SAN时遇到了相似的问题,但怎么改gt_size和batch都没有用

SAN 好像是蛮大的一个模型。你的设备是什么呢?

单张4090,看报错信息显示感觉SAN的显存需求特别大

jnpngshiii commented 3 months ago

我刚刚试了下,单张 3090 似乎不太跑的起来。

luierlyy commented 3 months ago

我刚刚试了下,单张 3090 似乎不太跑的起来。

好的,想再打扰一下您,实验过程中有时会遇到OSError: Cannot understand given URI: None. 这样的情况,是因为读取数据的时候txt文件内容和数据名称对不上的原因么

jnpngshiii commented 3 months ago

应该是吧. 看看参数有没有传进去.

luierlyy commented 3 months ago

应该是吧. 看看参数有没有传进去.

好的,十分感谢!