Closed gotochen closed 10 months ago
This time when num_workers: 4 batch_size: 32 n_samples: 100 after 50mins
这是我的服务器和conda虚拟环境的相关配置,望您看看是否和您项目相仿,是否有问题,麻烦您了
可能是显存不够用了,可以尝试把batch_size调小一点?我们之前没有遇到过类似的现象。
可能是显存不够用了,可以尝试把batch_size调小一点?我们之前没有遇到过类似的现象。
实际上我尝试了调整batch_size或者是dataloeader的线程数,很奇怪的是无论如何都会出现这样的问题,无论个人电脑还是服务器。服务器的4*24g显存应该不会出现不够的情况?可以的话能否分享一下你们的服务器配置情况和你们的pytorch相关库版本,我再查一下问题?
num_workers=0试一下呢
num_workers=0试一下呢
之前试过,无非是百分之多少报错,其他人复现的时候也出现过这种情况吗?
num_workers=0试一下呢
之前试过,无非是百分之多少报错,其他人复现的时候也出现过这种情况吗?
我也遇到了这个问题,在3090上跑的,显存占用了10G,GPU使用率到了90%
我把中间结果存出来,应该是在算tta结果的时候显存不够了。尝试了每一步只跑一个batch是成功的,但是在整个test data上eval,就会出现和你一样的错误。
我看了代码里面每个batch算完结果是直接append到result里面,没有预先allocate memory,这样会需要反复重新分配显存,会不会是这个原因呀
num_workers=0试一下呢
之前试过,无非是百分之多少报错,其他人复现的时候也出现过这种情况吗?
我也遇到了这个问题,在3090上跑的,显存占用了10G,GPU使用率到了90% 我把中间结果存出来,应该是在算tta结果的时候显存不够了。尝试了每一步只跑一个batch是成功的,但是在整个test data上eval,就会出现和你一样的错误。 我看了代码里面每个batch算完结果是直接append到result里面,没有预先allocate memory,这样会需要反复重新分配显存,会不会是这个原因呀
确实,或许尝试一下把结果先搬到cpu上然后再append?这样就不会累计占用显存了,只要内存够大就不会炸。
可能是显存不够用了,可以尝试把batch_size调小一点?我们之前没有遇到过类似的现象。
实际上我尝试了调整batch_size或者是dataloeader的线程数,很奇怪的是无论如何都会出现这样的问题,无论个人电脑还是服务器。服务器的4*24g显存应该不会出现不够的情况?可以的话能否分享一下你们的服务器配置情况和你们的pytorch相关库版本,我再查一下问题?
您好,请问您解决了吗?我也遇到了和您一样的问题,在Test的sample的for _, data in enumerate(tqdm(loader)):
报错。但是这部分是已经在append之前用v.cpu将数据张量移动到cpu上了吧,而且是在还没进行到计算tta的时候就报错了。在这个过程中我看cpu的空间也还是有不少的。请问还有其他什么原因呢?您是怎么解决的呢?非常感谢
你好,我运行你们代码dexgrasp_generation部分eval.py的时候出现了std::bad allocate和RuntimeError: falseINTERNAL ASSERT FAILED at "..\aten\src\ATen\MapAllocator.cpp":135, please report a bug to PyTorch.cannot allocate memory(12)等问题,总的来说好像都是内存不足问题。不知道你们运行时是否出现过类似问题,是存在代码未释放内存的现象还是我们服务器的内存不足呢?麻烦您告知一下是否有相关内容。 图例如下