Naver-AI-Hackathon / AI-Vision

67 stars 34 forks source link

nsml.cache() 문제로 OOM이 발생합니다. #73

Closed uhufor closed 5 years ago

uhufor commented 5 years ago

v2 dataset을 사용하여 최초 학습 시점부터 정확히 무었때문에 발생하는지는 추적이 불가능하지만

main.py

    if nsml.IS_ON_NSML:
        # Caching file
        nsml.cache(train_data_loader, data_path=train_dataset_path, img_size=input_shape[:2],
                   output_path=output_path)
    else:
        # local에서 실험할경우 dataset의 local-path 를 입력해주세요.
        train_data_loader(train_dataset_path, input_shape[:2], output_path=output_path)

nsml.cache()를 사용할 때는 배치크기 128기준 baseline 모델조차 OOM발생합니다. 하지만 cache를 사용하지 않고 train_data_loader()를 사용할 경우 정상 작동합니다.

그리고 ['./img_list.pkl', './label_list.pkl'] 를 제외한 파일은 생성이 불가능하여 다른 파일로 캐쉬를 만들수가 없네요.

DevKiHyun commented 5 years ago

이 문제 저도 발생합니다.

Hackoperation commented 5 years ago

안녕하세요.

OOM문제 관련해서는 세션네임을 알려주시면 원인파악하는데 도움이 될것같습니다.

['./img_list.pkl', './label_list.pkl'] 를 제외한 다른파일을 만들려면 함수이름을 다르게 설정하시면 될것같습니다.

예를들어 train_data_loader -> train_data_loader2

이렇게 바꾸면 캐시파일을 다시 생성합니다.

감사합니다!