Naver-AI-Hackathon / AI-Speech

31 stars 5 forks source link

학습시 사용되는 훈련용 데이터 관련 질문입니다! #50

Open shl1216 opened 5 years ago

shl1216 commented 5 years ago

수고 많으십니다! 확인차 문의드립니다..

main.py 코드에서

if HAS_DATASET == False: DATASET_PATH = './sample_dataset'

DATASET_PATH = os.path.join(DATASET_PATH, 'train')

이런 코드가 있는데, 코드의 의미로 보면 sample_dataset 100개를 학습용으로 활용하기 위해 접근한다는 의미이지 않나요? 그래서 제가 일부러 제공된 훈련용 데이터(5.03GB)를 로컬로 다운 받고 작업 디렉토리 안에 넣고 위 코드를 약간 수정해서 돌리면

image

이런 오류가 뜹니다. 100개의 파일을 넘어가서 코드가 실행이 안 된다는 건데, 결국 sample_dataset 을 활용하지 않아서 오류가 뜨는 것이지 않을까 생각됩니다.

혹시 sample_dataset의 wav file 100개가 아닌 훈련용 데이터 전체를 학습에 활용할 수 있게 하려면 어떻게 해야 하는지 여쭈어도 괜찮을까요? (sample_dataset은 label 파일도 하나이지만, train_data는 label파일이 각 파일마다 있어서 이런 차이들도 코드에 반영해야 하나요?)

RaicLee commented 5 years ago

그 오류는 nsml cloud 에 너무 많은 파일들을 올려서 나오는 오류가 아닌지요? nsmlignore에 폴더목록을 넣는것으로 해결될것이라 생각됩니다만 즉 훈련용데이터는 같은 디렉토리 안에서 올리시면 안되는 것으로 알고 있습니다

shl1216 commented 5 years ago

아 그렇군요! 정말 감사합니다! 그럼 혹시 저 main.py 코드는 특별히 바꾸지 않아도 실제 훈련용데이터를 가지고 학습하나요??

RaicLee commented 5 years ago

만약 클라우드를 사용하시면 따로 바꾸지 않으셔도 클라우드에 있는 데이터로 훈련합니다. nsml run -d sr-hack-2019-dataset 으로 훈련할 데이터를 정할수 있습니다