Proj-Caliber / Job-Care

데이콘의 잡케어 추천 알고리즘 경진대회 작업공간입니다.
1 stars 5 forks source link

Delete outlier and Feature engineering #10

Open qkrwjdduf159 opened 2 years ago

qkrwjdduf159 commented 2 years ago

Delete outlier

image

2020.05.31에 있는 데이터를 제거하고 Threshold를 0.4로 지정했을 때 기존의 모델보다 좋은 성적을 가져왔습니다. 생각) 1. 2020.05.31의 데이터가 target의 0의 변수를 많이 포함하고 있어서 지금 데이터의 예측을 방해한다고 생각하고 제거했습니다.

  1. Test가 불균형 데이터라고 가정했을 때도 좋은 성적을 낼 것이라고 생각해서 제거했습니다.

Feature engineering

데이터를 보면 D,H,L의 코드가 너무 많아서 더미화를 진행하지 못하고 있습니다. 그래서 이런 부분을 다른 방식으로 풀어보기 위해서 생각을 했을 때, 각 변수값마다 target값의 평균을 변수로 지정해주는 방식을 시도해 보고 내일쯤에 다시 한번 제출하고 공유하도록 하겠습니다.

ex) D_1번의 500이라는 변수가 있을 때 500이라는 변수의 평균을 변수로 넣어주는 형식입니다.

그러면 변수의 값이 높을수록 1과 0에 가까워 질 수 있겠다 싶어서 생각해봤습니다. 다른 의견 있으시면 언제든 이슈에 남겨주세요