Naver-AI-Hackathon / AI-Speech

31 stars 5 forks source link

train_label 질문 #44

Open DongKeon opened 4 years ago

DongKeon commented 4 years ago

training 데이터셋이 30000개가 있는데 train.tar 안에있는 train_label에는 29805개로 보입니다.

local에서 돌릴때는 따로 파일을 만들어서 사용하고있는데, 혹시 nsml server에도 누락이 돼있는것인지 확인하고 싶습니다.

ClovaAIAdmin commented 4 years ago

저희가 3만개 데이터의 레이블을 전수 검사한 결과, 195개의 레이블에 특수 기호 처리가 된 것을 확인하여, 학습 목록에서 제거했습니다. train_data/data_list.csv 파일을 보시면, 195개를 제외한 정상적인 29805개의 목록을 확인하실 수 있고, 가급적 해당 목록의 데이터로 학습하시는 것을 추천드립니다. 감사합니다.