Model has stopped training due to the lack of the server storage.

boostcampaitech4lv23nlp1 / final-project-level3-nlp-03

Multi-Modal Model for DocVQA(Document Visual Question Answering)

3 stars 0 forks source link

Model has stopped training due to the lack of the server storage. #21

Closed chanmuzi closed 1 year ago

chanmuzi commented 1 year ago

현재 서버의 터미널에 df를 입력해보면 남은 용량이 없는 것을 확인할 수 있다. 수정된 데이터를 추가로 다운받고, 여러 개의 모델을 돌리면서 pt 파일이 지나치게 많이 생성된 것이 주원인이다.

모델이 학습하는 과정에서 데이터는 반드시 필요한 것이므로 불필요한 pt 파일을 계속해서 지워주는 것이 유일한 해결책으로 보인다. 현재까지 뽑아낸 pt 파일을 기준으로 inference를 수행하고 나머지 pt 파일은 삭제하는 것이 최선일지에 대한 확인이 필요하다. (@Ssunbell )

hundredeuk2 commented 1 year ago

huggingFace에 pt파일 업데이트하는 방법도 있음 model.push_to_hub( repo_name, use_temp_dir = True, use_auth_token = auth_token)

Ssunbell commented 1 year ago

난 그래서 서버 밀음 ㅋㅋ

chanmuzi commented 1 year ago

@hundredeuk2 거긴 용량 제한이 없슈?

chanmuzi commented 1 year ago

일종의 hyper-parameter tuining 작업이라 validation 결과만 비교하면 되는 것이었다.
굳이 pt 파일을 보관할 필요가 없으므로 학습이 끝난 모델들에 대한 pt 파일을 전부 삭제했다.

그럼에도 불구하고 서버 내 용량이 많이 확보되지는 않았다. 큰 용량을 차지하는 /dev/xvdb1 을 비워줘야 할텐데 마땅한 방법이 검색되지 않는다. 심지어 초기화를 하고 다시 돌리면 비슷한 상태가 된다고 해서 그냥 감수해야 할지 의문이 들지만 일단 급한 불은 껐다.