Closed halimx2 closed 1 year ago
train과 dev data로 나누는 작업이 필요하다.
마지막 random_state로 seed까지 고정해줄 수 있을 듯 하다.
import pandas as pd from sklearn.model_selection import train_test_split data = pd.read_csv('train.csv') train_data, dev_data = train_test_split(data, test_size=0.2, random_state=42)
https://blog.naver.com/PostView.naver?blogId=siniphia&logNo=221396370872
Data split은 #2 issue와 비슷한 내용인것 같습니다. random_state 부분만 따로 분리하여 issue가 생성되어야 될것 같습니다.
stratify도 하면 좋을 것 같습니다.
train과 dev data로 나누는 작업이 필요하다.
마지막 random_state로 seed까지 고정해줄 수 있을 듯 하다.
https://blog.naver.com/PostView.naver?blogId=siniphia&logNo=221396370872