CUDA out of memory while trying to inference.

sangminwoo commented 5 years ago

Hi. I was trying to evaluate the model, which was trained in step-wise(detector - sgg) manner.

But I've got an issue of OOM problem.

At first time I try with single gpu, and even used 2 gpus but OOM still occurred. (Both gpus are RTX2080Ti)

Does anybody who have same trouble with me?

And is this a problem that could happen even with two gpu?

(graph) woo@IRRLab:~/graph-rcnn.pytorch$ python -m torch.distributed.launch --nproc_per_node=2 main.py --config-file configs/sgg_res101_step.yaml --inference --resume 15000 --visualize 2019-10-29 20:09:42,210 scene_graph_generation INFO: Namespace(algorithm='sg_baseline', config_file='configs/sgg_res101_step.yaml', distributed=True, inference=True, instance=-1, local_rank=0, resume=15000, use_freq_prior=False, visualize=True) 2019-10-29 20:09:42,210 scene_graph_generation INFO: Loaded configuration file configs/sgg_res101_step.yaml 2019-10-29 20:09:42,210 scene_graph_generation INFO: Saving config into: logs/config.yml images_per_batch: 8, num_gpus: 2 images_per_batch: 1, num_gpus: 2 2019-10-29 20:09:56,317 scene_graph_generation.trainer INFO: Train data size: 56224 2019-10-29 20:09:56,317 scene_graph_generation.trainer INFO: Test data size: 26446 2019-10-29 20:09:57,122 scene_graph_generation.checkpointer INFO: Loading checkpoint from checkpoints/vg_benchmark_object/R-101-C4/faster_rcnn/BatchSize_6/Base_LR_0.005/checkpoint_0099999.pth 2019-10-29 20:09:57,408 scene_graph_generation.inference INFO: Start evaluating 2019-10-29 20:09:57,580 scene_graph_generation.inference INFO: inference on batch 0/13223... 2019-10-29 20:10:01,040 scene_graph_generation.inference INFO: inference on batch 10/13223... Traceback (most recent call last): File "main.py", line 127, in main() File "main.py", line 124, in main test(cfg, args) File "main.py", line 80, in test model.test(visualize=args.visualize) File "/home/woo/graph-rcnn.pytorch/lib/model.py", line 232, in test output = self.scene_parser(imgs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/parser.py", line 133, in forward x_pairs, detection_pairs, rel_heads_loss = self.rel_heads(relation_features, detections, targets) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, *kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/relation_heads.py", line 139, in forward self.rel_predictor(features, proposals, proposal_pairs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/baseline/baseline.py", line 26, in forward x, rel_inds = self.pred_feature_extractor(features, proposals, proposal_pairs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/roi_relation_feature_extractors.py", line 61, in forward x = self._union_box_feats(x, proposal_pairs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/roi_relation_feature_extractors.py", line 46, in _union_box_feats x = self.head(x_union) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, *kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/backbone/resnet.py", line 203, in forward x = getattr(self, stage)(x) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/container.py", line 92, in forward input = module(input) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/backbone/resnet.py", line 339, in forward identity = self.downsample(x) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, *kwargs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/container.py", line 92, in forward input = module(input) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/layers/batch_norm.py", line 31, in forward return x scale + bias RuntimeError: CUDA out of memory. Tried to allocate 1.51 GiB (GPU 0; 10.76 GiB total capacity; 7.96 GiB already allocated; 1007.31 MiB free; 456.64 MiB cached) Traceback (most recent call last): File "main.py", line 127, in main() File "main.py", line 124, in main test(cfg, args) File "main.py", line 80, in test model.test(visualize=args.visualize) File "/home/woo/graph-rcnn.pytorch/lib/model.py", line 232, in test output = self.scene_parser(imgs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/parser.py", line 133, in forward x_pairs, detection_pairs, rel_heads_loss = self.rel_heads(relation_features, detections, targets) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, *kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/relation_heads.py", line 139, in forward self.rel_predictor(features, proposals, proposal_pairs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/baseline/baseline.py", line 26, in forward x, rel_inds = self.pred_feature_extractor(features, proposals, proposal_pairs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/roi_relation_feature_extractors.py", line 61, in forward x = self._union_box_feats(x, proposal_pairs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/relation_heads/roi_relation_feature_extractors.py", line 46, in _union_box_feats x = self.head(x_union) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, *kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/backbone/resnet.py", line 203, in forward x = getattr(self, stage)(x) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/container.py", line 92, in forward input = module(input) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/modeling/backbone/resnet.py", line 339, in forward identity = self.downsample(x) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(*input, *kwargs) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/container.py", line 92, in forward input = module(input) File "/home/woo/.conda/envs/graph/lib/python3.6/site-packages/torch/nn/modules/module.py", line 489, in call result = self.forward(input, kwargs) File "/home/woo/graph-rcnn.pytorch/lib/scene_parser/rcnn/layers/batch_norm.py", line 31, in forward return x * scale + bias RuntimeError: CUDA out of memory. Tried to allocate 1.51 GiB (GPU 1; 10.76 GiB total capacity; 7.90 GiB already allocated; 1.32 GiB free; 524.12 MiB cached)

digbose92 commented 4 years ago

I am using the command : python main.py --config-file configs/sgg_res101_step.yaml --inference --resume 39999 . I am also getting the OOM issue during inference. RuntimeError: CUDA out of memory. Tried to allocate 1.51 GiB (GPU 2; 10.73 GiB total capacity; 7.96 GiB already allocated; 1.46 GiB free; 460.89 MiB c$ ched). Any solutions ?

jwyang commented 4 years ago

@sangminwoo @digbose92 which sg_algorithm did you use? During inference, all object pairs will be computed for relationship detection. that's why it might exceed the memory maximum. One quick solution is you can constrain the number of object proposals to be less than a certain number, say 50, then you will probably solve this issue.

sangminwoo commented 4 years ago

Thank you for kind reply.

I've tried sg_baseline and trained it in step-wise manner. issue has been resolved when I reduced size of image to almost 1/10.

using sg_grcnn and training jointly seems fine in test phase.