Closed unhochoi closed 2 years ago
BERT 모델 로드 과정에서 메모리 부족으로 인한 오류 발생
2022-06-05 05:31:01.619094: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1418] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 324 MB memory) -> physical GPU (device: 0, name: NVIDIA Tegra X1, pci bus id: 0000:00:00.0, compute capability: 5.3)
2022-06-05 05:32:10.538073: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Allocation of 93763584 exceeds 10% of free system memory.
tensorflow.python.framework.errors_impl.InternalError: Failed copying input tensor from /job:localhost/replica:0/task:0/device:CPU:0 to /job:localhost/replica:0/task:0/device:GPU:0 in order to run Identity: Dst tensor is not initialized. [Op:Identity]
아마도 나노와 tx1 의 메모리 크기가 비슷할것 같은데, 비슷한 이유로 실패할 수 있을듯 하네. 이건 배치 사이즈 상관없이 무조건 에러가 발생하는 거지?
네, Nano 에선 배치 추론 전 모델 로드 단계에서 에러가 발생하고 있습니다.
에러를 보니 324 MB로 GPU에 메모리가 할당된 것 같은데, 사이즈를 늘려서 할당해보는 것도 확인이 필요해보입니다. 제 실험 같은 경우에 사이즈를 늘려서 실험을 했을 때 가능한 시나리오도 있었습니다.
현재 2GB 까지 할당해보았으나, 정상적으로 동작하지 않고 있습니다. 좀 더 파악해보겠습니다.
Nano 에서 BERT 추론 중 아래와 같은 에러가 발생하고 있으며, 원인 파악 중