[Data] CV check - Githubissues

sodabeans commented 2 years ago

What

데이터셋을 train, validation 으로 나누기

Why

validation set을 사용해서 모델 학습이 잘 진행되고 있는지 확인

How

comment를 참고해주세요.

SSANGYOON commented 2 years ago

for i,(train_idx, test_idx) in enumerate(kfold.split(datas['images'])): train = dict() keys = list(datas['images'].keys()) train['images'] = dict() valid['images'] = dict() for ti in train_idx: key = keys[ti] train['images'][key] = datas['images'][key] for ti in test_idx: key = keys[ti] valid['images'][key] = datas['images'][key] with open('train_'+str(i)+'.json', 'w', encoding='utf-8') as make_file: json.dump(train, make_file, indent="\t") with open('valid_'+str(i)+'.json', 'w', encoding='utf-8') as make_file: json.dump(valid, make_file, indent="\t")

SSANGYOON commented 2 years ago

일단 k-fold로 cv split한거 5개 만들어 놓았습니다. train 80 valid 20의 비율이 적절할까요? 총 데이터의 갯수는 6100개 정도입니다.

boostcampaitech3 / level2-data-annotation_cv-level2-cv-16

[Data] CV check #14

What

Why

How