Closed wzz893434299 closed 1 year ago
can u provide the environmental version
Hi! I have the same problem. My device is 4*A100(40G), torch 1.13, torchvision 0.14, mmcv-full 1.7.0
你好,根据我以往的经验,是由于pytorch和mmcv的版本不一致导致的,我还没有尝试过在新的pytorch和mmcv上调试我的代码。你可以恢复到我github的环境版本(pytorch=1.9.0,mmcv-full=1.4 (cuda11.1,不过应该不影响),另外如果你在新的环境上找到bug欢迎你告诉我修改(我预估是某个函数版本更新导致的内存泄露)。
你好,根据我以往的经验,是由于pytorch和mmcv的版本不一致导致的,我还没有尝试过在新的pytorch和mmcv上调试我的代码。你可以恢复到我github的环境版本(pytorch=1.9.0,mmcv-full=1.4 (cuda11.1,不过应该不影响),另外如果你在新的环境上找到bug欢迎你告诉我修改(我预估是某个函数版本更新导致的内存泄露)。
我后来定位到我的问题是因为cuda driver版本过高(12.1),降低cuda driver到11.4后解决了问题。
你好,根据我以往的经验,是由于pytorch和mmcv的版本不一致导致的,我还没有尝试过在新的pytorch和mmcv上调试我的代码。你可以恢复到我github的环境版本(pytorch=1.9.0,mmcv-full=1.4 (cuda11.1,不过应该不影响),另外如果你在新的环境上找到bug欢迎你告诉我修改(我预估是某个函数版本更新导致的内存泄露)。
我后来定位到我的问题是因为cuda driver版本过高(12.1),降低cuda driver到11.4后解决了问题。
你好, 你是怎么定位到问题的,我尝试了几个pytorch高版本的(>=1.10) 都会出现显存一直上涨的问题,我也尝试降低 cuda driver为11.4还是出现问题了。我想用高版本的pytorch 训练效率更高些
你好,根据我以往的经验,是由于pytorch和mmcv的版本不一致导致的,我还没有尝试过在新的pytorch和mmcv上调试我的代码。你可以恢复到我github的环境版本(pytorch=1.9.0,mmcv-full=1.4 (cuda11.1,不过应该不影响),另外如果你在新的环境上找到bug欢迎你告诉我修改(我预估是某个函数版本更新导致的内存泄露)。
你好,我的环境如下:pytorch=1.8.0,mmcv-full=1.4,仍然出现显存持续上涨问题,我推测是否是因为refine stage的过程中有某个函数出现了问题?目前我还没有定位到具体问题。
Python: 3.7.16 (default, Jan 17 2023, 22:20:44) [GCC 11.2.0] CUDA available: True GPU 0: NVIDIA TITAN RTX CUDA_HOME: /usr/local/cuda-10.2 NVCC: Cuda compilation tools, release 10.2, V10.2.89 GCC: gcc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0 PyTorch: 1.8.0 PyTorch compiling details: PyTorch built with:
TorchVision: 0.9.0 OpenCV: 4.8.0 MMCV: 1.4.0 MMCV Compiler: GCC 7.3 MMCV CUDA Compiler: 10.2 MMDetection: 2.13.0+c820f32
@Darren-pfchen
Hello,I would like to know why the memory has been increasing when training?The device are 4* RTX3090.Is there a solution to solve the problem? Thank you.