standard info 파일 제작

google drive에 standard.csv 파일을 만들어서 올렸습니다.

라벨링이 잘못됐던 샘플 re-labeling
- 001720, 003113, 006504도 추가! (female to male)
95%:5% 비율로 validation set 제작
- 5%의 validation set은 총 900장의 이미지로 구성 (전체 18,900장)
- 900장은 각 클래스 별 50장으로 구성됨 (총 18개 class)

아래 코드로 재현 가능함

import random
import numpy as np
import pandas as pd

seed = 8
random.seed(seed)
np.random.seed(8)

df = pd.read_csv("labeled_train_v2.csv", index_col="id")
rand_ind = []
for i in range(18):
    rand_ind += df.groupby("label").get_group(i).sample(50).index.tolist()
rand_ind = sorted(rand_ind)
df["train"] = np.zeros(len(df), dtype=np.int32)
df.loc[rand_ind, "train"] = 1
df.to_csv("standard.csv")

boostcampaitech2 / image-classification-level1-08

standard info 파일 제작 #26