2020.05.31에 있는 데이터를 제거하고 Threshold를 0.4로 지정했을 때 기존의 모델보다 좋은 성적을 가져왔습니다.
생각) 1. 2020.05.31의 데이터가 target의 0의 변수를 많이 포함하고 있어서 지금 데이터의 예측을 방해한다고 생각하고 제거했습니다.
Test가 불균형 데이터라고 가정했을 때도 좋은 성적을 낼 것이라고 생각해서 제거했습니다.
Feature engineering
데이터를 보면 D,H,L의 코드가 너무 많아서 더미화를 진행하지 못하고 있습니다. 그래서 이런 부분을 다른 방식으로 풀어보기 위해서 생각을 했을 때, 각 변수값마다 target값의 평균을 변수로 지정해주는 방식을 시도해 보고 내일쯤에 다시 한번 제출하고 공유하도록 하겠습니다.
ex) D_1번의 500이라는 변수가 있을 때 500이라는 변수의 평균을 변수로 넣어주는 형식입니다.
그러면 변수의 값이 높을수록 1과 0에 가까워 질 수 있겠다 싶어서 생각해봤습니다. 다른 의견 있으시면 언제든 이슈에 남겨주세요
Delete outlier
2020.05.31에 있는 데이터를 제거하고 Threshold를 0.4로 지정했을 때 기존의 모델보다 좋은 성적을 가져왔습니다. 생각) 1. 2020.05.31의 데이터가 target의 0의 변수를 많이 포함하고 있어서 지금 데이터의 예측을 방해한다고 생각하고 제거했습니다.
Feature engineering
데이터를 보면 D,H,L의 코드가 너무 많아서 더미화를 진행하지 못하고 있습니다. 그래서 이런 부분을 다른 방식으로 풀어보기 위해서 생각을 했을 때, 각 변수값마다 target값의 평균을 변수로 지정해주는 방식을 시도해 보고 내일쯤에 다시 한번 제출하고 공유하도록 하겠습니다.
ex) D_1번의 500이라는 변수가 있을 때 500이라는 변수의 평균을 변수로 넣어주는 형식입니다.
그러면 변수의 값이 높을수록 1과 0에 가까워 질 수 있겠다 싶어서 생각해봤습니다. 다른 의견 있으시면 언제든 이슈에 남겨주세요