Closed ChoonB closed 1 month ago
아파트별로 차이가 너무 나게 deposit이 있는 raw들이 있어 이 계약들을 공공임대 매물로 추정해 제외해서 학습해보고자한다.
train에서 위도, 경도, 면적이 같은 raw들을 그룹화 한 다음에 그룹별로 k-mean를 사용해 deposit으로 2그룹으로 나눈다.
낮은 그룹과 높은 그룹의 중간값이 50% 이상 차이가 나지 않으면 그룹을 무효화 한다.
이렇게 했을 때 낮은 그룹 167822raw를 공공임대(public_rental)로 분류해서 train에서 제외한다. 해당 데이터셋은 V6로 명명.
Overall OOF MAE는 3900대에서 4298.1431 오히려 상승. Public score는 3747.5628 ->3797.5000로 큰 차이 없음
아파트별로 차이가 너무 나게 deposit이 있는 raw들이 있어 이 계약들을 공공임대 매물로 추정해 제외해서 학습해보고자한다.
train에서 위도, 경도, 면적이 같은 raw들을 그룹화 한 다음에 그룹별로 k-mean를 사용해 deposit으로 2그룹으로 나눈다.
낮은 그룹과 높은 그룹의 중간값이 50% 이상 차이가 나지 않으면 그룹을 무효화 한다.
이렇게 했을 때 낮은 그룹 167822raw를 공공임대(public_rental)로 분류해서 train에서 제외한다. 해당 데이터셋은 V6로 명명.