boostcampaitech5 / level2_klue-nlp-04

level2_klue-nlp-04 created by GitHub Classroom
1 stars 0 forks source link

[Etc] train,dev data 나누기 #6

Closed halimx2 closed 1 year ago

halimx2 commented 1 year ago

train과 dev data로 나누는 작업이 필요하다.

마지막 random_state로 seed까지 고정해줄 수 있을 듯 하다.

import pandas as pd
from sklearn.model_selection import train_test_split

data = pd.read_csv('train.csv')
train_data, dev_data = train_test_split(data, test_size=0.2, random_state=42)

https://blog.naver.com/PostView.naver?blogId=siniphia&logNo=221396370872

kms7530 commented 1 year ago

Data split은 #2 issue와 비슷한 내용인것 같습니다. random_state 부분만 따로 분리하여 issue가 생성되어야 될것 같습니다.

lig96 commented 1 year ago

stratify도 하면 좋을 것 같습니다.