Dataset Split 관련 이슈

건하님이 올려주신 데이터셋에서

dataset = preprocessing_dataset(df)
dataset_size = len(dataset)
train_dataset, validation_dataset = random_split(dataset, [math.floor(dataset_size*0.8), math.ceil(dataset_size*0.2)])
print(f"dataset length is {len(dataset):,}") # 수정
print(f"train dataset length is {len(train_dataset):,}") # 수정
print(f"dev dataset length is {len(validation_dataset):,}") # 수정

train_df = dataset.iloc[train_dataset.indices]
validation_df = dataset.iloc[validation_dataset.indices]
train_df.to_csv(os.path.join(TRAIN_DIR, 'train-v.0.0.1.csv'), index=False) # 경로 수정 및 파일 이름 수정
validation_df.to_csv(os.path.join(DEV_DIR, 'dev-v.0.0.1.csv'), index=False) # 경로 수정

경로 통일, train data set 버전 관리 필요. original data와 이름 겹침.

boostcampaitech6 / level2-klue-nlp-01

Dataset Split 관련 이슈 #3