EDA 및 모델을 활용한 예측부분 v0.3으로 풀리퀘 하였습니다.
특이사항 아래와 같이 정리해서 공유드려요!
기상관련 변수
최저기온, 최고기온, 강수량, 습도 컬럼 추가
(idea) 강수량 컬럼은 비가 내렸는지 여부를 0,1로 변환하여 활용
(idea) 습도 컬럼은 해당일자의 최대값 사용
-> 불쾌지수를 계산한 값과 해당일자 습도 최대값 중 목표변수와 더 높은 상관관계를 가지는 변수를 사용하면 어떨까요?
예측모델
범주형 변수 전처리 (라벨인코딩 or 원핫인코딩 중 활용 가능)
RandomForest, XGBoost, LightGBM 성능비교 (MAE or MSE 기준 확인 가능) : 제 컴퓨터에서는 각각 5분정도씩 걸렸습니다 ㅜㅜ
(idea) 하이퍼파라미터 튜닝 : 튜닝할 수 있는 파라미터는 엄청 다양한데 그리드서치 파라미터 종류를 3개로만 늘려도 시간이 엄청 오래걸리더라구요 ㅜㅜ 모델 성능 개선이 이번 분석의 목적이 아니므로 이 부분은 한번씩 경험삼아 돌려보는 정도로만 진행해도 충분하지 않을까 싶습니다.
EDA 및 모델을 활용한 예측부분 v0.3으로 풀리퀘 하였습니다. 특이사항 아래와 같이 정리해서 공유드려요!
기상관련 변수
예측모델