Closed ChoonB closed 1 week ago
해당 데이터를 모두 넣어서 타지역과 전세가가 구별된다면, 구별됨의 정도에 따라 입지 rank를 매길 수 있지 않을까 하는 아이디어
deposit과 corr coef 값 확인 결과 다음과 같았습니다. deposit 1.000000 area_m2 0.522559 subway_count 0.322718 longitude 0.157859 built_year 0.145462 floor 0.132750 school_count 0.094456 latitude 0.075976 contract_year_month 0.072127 contract_day 0.007482 park_count -0.012665 contract_type -0.084579 age -0.137116 Name: deposit, dtype: float64
각 연도별 deposit과 corr coef 값의 변화는 다음과 같았습니다.
해당 클러스터링 진행시, One Hot 코딩으로 전부 매겨서 진행해보는 것이 어떨까요?
현재 Subway List
관련 코드를 One-Hot 코딩으로 변경하는 작업을 해보고 있습니다.
그것으로 간단한 Corr 및 LGBM을 돌려보려고 하는데, 클러스터링에도 넣으면 어떨까 해서요.