Bert fine-tuning 과정 중 오류 문의

ywjin6533 commented 3 years ago

안녕하세요. 한국어 임베딩 책으로 열심히 자연어 처리 관련 배우고 있는 학생입니다.

2쇄 279p ~ 280p 에 있는 내용을 토대로 우선은 네이버 영화평점 코퍼스 그대로 fine-tuning 을 진행해보려 하고 있습니다. 듀얼부팅된 ubuntu 20.04 환경에서 이미지 파일 다운 받아 docker에서 책에 있는 내용 그대로 똑같이 따라 진행하면 tune-bert.log에 다음과 같은 오류가 발생합니다:

InternalError (see above for traceback): Blas GEMM launch failed : a.shape=(4096, 2), b.shape=(2, 768), m=4096, n=768, k=2 [[node bert/embeddings/MatMul (defined at /notebooks/embedding/models/bert/modeling.py:484) = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/device:GPU:0"](bert/embeddings/one_hot, bert/embeddings/token_type_embeddings/read)]] [[{{node Mean/_733}} = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/device:CPU:0", send_device="/job:localhost/replica:0/task:0/device:GPU:0", send_device_incarnation=1, tensor_name="edge_15471_Mean", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:CPU:0"]()]]

관련 여러 자료를 찾아보았는데, tensorflow process 충돌이 일어났다고 어림짐작만 하고 있습니다. https://stackoverflow.com/questions/43990046/tensorflow-blas-gemm-launch-failed 솔루션대로 tune-utils.py 파일을 변경해보았지만 상황이 해결되지는 못했고, 이후 우분투 재설치를 하고 바로 다시 진행해보아도 똑같은 오류가 계속해서 발생했습니다. 같은 도커 환경인데 오류가 어째서 일어나는지, 다른 pc에서는 오류 없이 잘 진행되는지 알고 싶습니다. ㅠㅠ

ratsgo commented 3 years ago

이 부분은 저도 처음 관찰하는 오류인데요. 제 쪽에서 다시 한번 확인해보고 말씀드리겠습니다.

ywjin6533 commented 3 years ago

사양 관련 문제일지 모르겠네요.

cpu : intel i5-11400 ram : 32gb gpu : Geforce RTX 3060

현재 생각되는 것으로는: 언젠가 한 번 RTX가 리눅스와 호환이 좋지 못하다는 글을 본 적이 있는데 혹시 이 점이 문제 될지 모르겠습니다. 512gb ssd 를 128gb 로 파티션 나눠서 리눅스에선 쓰고 있는데 용량이 부족한 것도 원인이 될 수 있을 것 같습니다. gpu 사용량을 한 번 fine-tuning 돌릴 때 모니터링 해봤었는데, 계속 최대 사용량을 찍다가 어느 순간 뚝 끊기는 것 외에 별다른 사항은 확인하지 못했습니다. 그 외에 별개로 아래 사진처럼 gnome이랑 xorg/Xorg가 백그라운드에 계속 돌고 있더라고요

혹여나 이후에 이런 사항들 참고하셔서 확인되신다면 정말 감사하겠습니다.

ratsgo / embedding

Bert fine-tuning 과정 중 오류 문의 #130