honeybeat1 / team1_wanted_onboarding_2nd

2021년 8월 원티드 소속 "원티드 에듀"에서 주관하는 데이터 분석 채용 연계형 프로젝트
2 stars 3 forks source link

[Week3/최석준] 개인 EDA 정리 #53

Open sparrow422 opened 3 years ago

sparrow422 commented 3 years ago

일단 재훈님께서 해주신 EDA에서 좋은 아이디어가 많은 것 같아서 그거 위주로 하면 될거 같고 약간만 추가하고 모델부분만 제거 넣으면 될 것 같습니다.

  1. 컬럼의 의미들을 넣으면 좋을 것 같습니다. 쉽게 파악이 안되는게 [D_TYPE, GOODS_TYPE, COUNT, AD1]인데

    • D_TYPE은 CC인 경우 높은 COUNT를 보여주고 모델 예측에서 중요하게 작용하고 있습니다.
    • GOODS_TYPE는 유의미한 상관성은 안보이지만 주말에 B타입이 크게 줄어들었습니다.
    • COUNT는 이용횟수라고 주어지고 예측하라고 했지만 이용횟수보단 이용시간으로 보는게 가능성있어 보입니다.
    • AD1은 STORE_ID와 비교했을 때 하나의 STORE_ID당 하나의 AD1이 부여되는 걸로 보아 주소와 관련된 것을 알 수 있습니다.(시, 도, 구, 동 등...)
  2. pycaret 깃헙예제 : https://github.com/pycaret/pycaret/blob/master/examples/PyCaret%202%20Regression.ipynb pycaret 공식 사이트 : https://pycaret.org/ 머신러닝 모델에서 mae 기준 0.04를 넘는 성능을 보여주고 있는데 지금 확인해보니 모든 count를 1로 예측한 경우 0.02로 성능이 나와 안쓰는게 더 좋은 결과를 보여주고 있습니다. 이 부분 조금 더 해보고 유의미한 결과 나오면 말씀드릴게요 발표자료는 일단 제 코드 사용해서 만들어주세요

sparrow422 commented 3 years ago

image

캡쳐는 모든 값을 1로 예측했을 때의 성능입니다. MAE 기준에서 1로 예측한 경우 0.02, 모델을 사용한 경우 0.04로 오히려 성능이 떨어졌지만 MSE 기준에서는 1로 예측한 경우 0.26, 모델을 사용한 경우 0.05로 성능이 향상되었습니다. 즉, 1이 아닌 값들에 대해서는 어느정도 예측을 하고 있다고 볼 수 있습니다.

ww81 commented 3 years ago

감사합니다. 보완해서 완성하겠습니다~