Naver-AI-Hackathon / AI-Vision

67 stars 34 forks source link

Something went wrong with NSML #201

Open comisputer opened 5 years ago

comisputer commented 5 years ago

data_loader.py 안에 있는 test_data_loader 함수는 어떤식으로 동작하는지 알 수 있을까요? main.py 코드문내에서는 확인할 수 없어서요 아래 오류 메세지도 확인 부탁드립니다.

comisputer commented 5 years ago

@nsml-admin 또 하나 질문있습니다.. 명령어 nsml submit CAU_LOVER/ir_ph2/6 0 했을때 다음과 같은 오류가 발생합니다.

....Warning: Your session has a total size of over 10 MB You may want to add unnecessary files and directories to the ignore list. (e.g. the .git directory) .... Building docker image. It might take for a while ........Error: Something went wrong with NSML time="2019/01/23 16:01:28.164" level=fatal msg="Internal server error"

OOM인가요?? Error: Something went wrong with NSML 이건 어떤 에러인지 확인부탁드립니다.

nsml-admin commented 5 years ago

현재 submit에러가 발생한 경우 전부 Something went wrong with NSML 에러가발생하고있는데요,

조만간 패치가 진행될예정입니다.

위세션에러는 OOM관련된 에러가 발생한것같습니다.

test_data_loader는 train시에는 동작하지않고, 실제submit을 할때만 동작합니다. 다만 유저가 수정을하여도 submit시에는 영향을 받지않고, data_loader가 작동하는 방식을 유저에게 보여주기위함입니다.

감사합니다.

File "main_run.py", line 63, in infer
    query_vecs = get_feature_layer([query_img, 0])[0]
  File "/opt/conda/lib/python3.5/site-packages/keras/backend/tensorflow_backend.py", line 2715, in __call__
    return self._call(inputs)
  File "/opt/conda/lib/python3.5/site-packages/keras/backend/tensorflow_backend.py", line 2675, in _call
    fetched = self._callable_fn(*array_vals)
  File "/opt/conda/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 1399, in __call__
    run_metadata_ptr)
  File "/opt/conda/lib/python3.5/site-packages/tensorflow/python/framework/errors_impl.py", line 526, in __exit__
    c_api.TF_GetCode(self.status.status))
tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[9014,32,224,224] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
     [[{{node conv2d_1/convolution}} = Conv2D[T=DT_FLOAT, data_format="NCHW", dilations=[1, 1, 1, 1], padding="SAME", strides=[1, 1, 1, 1], use_cudnn_on_gpu=true, _device="/job:localhost/replica:0/task:0/device:GPU:0"](conv2d_1/convolution-0-TransposeNHWCToNCHW-LayoutOptimizer, conv2d_1/kernel/read)]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.