naver / nlp-challenge

NLP Shared tasks (NER, SRL) using NSML
178 stars 69 forks source link

submit시에 OOM 문제 문의 #25

Open eagle705 opened 6 years ago

eagle705 commented 6 years ago

학습할때는 OOM 에러가 뜨지 않는데, nsml sumbit시에 OOM에러가 뜨고있습니다. 혹시 해결할 방법이 있는지 궁금합니다

ResourceExhaustedError (see above for traceback): OOM when allocating tensor with shape[2500,64,180,48] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
     [[{{node module_apply_tokens/bilm/CNN/Conv2D_2}} = Conv2D[T=DT_FLOAT, data_format="NCHW", dilations=[1, 1, 1, 1], padding="VALID", strides=[1, 1, 1, 1], use_cudnn_on_gpu=true, _device="/job:localhost/replica:0/task:0/device:GPU:0"](module_apply_tokens/bilm/CNN/Conv2D-0-TransposeNHWCToNCHW-LayoutOptimizer, module_apply_tokens/bilm/CNN/Conv2D_2/ReadVariableOp/_1349)]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

     [[{{node crf_layer/rnn/while/GreaterEqual/_1575}} = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/device:CPU:0", send_device="/job:localhost/replica:0/task:0/device:GPU:0", send_device_incarnation=1, tensor_name="edge_3420_crf_layer/rnn/while/GreaterEqual", tensor_type=DT_BOOL, _device="/job:localhost/replica:0/task:0/device:CPU:0"](^_cloopcrf_layer/rnn/while/Cast/_1163)]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.
nsml-admin commented 6 years ago

안녕하세요~

실제 submit 과 학습할때 실행되는 환경은 똑같습니다.

다만 데이터가 test data라서 train data와 바뀌는 부분이 있을수있고, infer 함수안에서 실제 inference과정은 학습할때와 로직이 변경되어서 생기는 에러일수도있습니다.

해결할방법은 코드에서 어느부분에서 OOM이 발생하는지 submit -t 로 디버깅 하는 방법이 있습니다.

감사합니다.