chsop / team4_wanted_onboarding

Team 4 온보딩 코스 과제를 위한 main 저장소입니다.
7 stars 7 forks source link

[Week2/윤준식] 2021-05-11 회의록 #66

Closed hellojun12 closed 3 years ago

hellojun12 commented 3 years ago

논의 사항

교통량 관련

 - 시간대로 나눠서 join하게 되면 row by로 모든 시간대가 다 들어감으로 파악이 힘들다.
 - 교통량 변수를 쓴다면 날짜당 하나의 평균값
 - 실전 db데이터를 적극 활용해 보고 후행적으로 사용하는 방법

이상치 처리

- heavy user 데이터 제거 (user_id  = 999665)
- 유저ID와 join_date(가입이후 개월수)가 같이 가는 추세 (가입한 순서대로 user_id가 부여됐다면 
  상관관계가 1에 가깝게 나올 가능성 있음) --> 둘중 하나만 쓰면 될거같다. join_date 컬럼 정보를 안쓰게 되면
  join_date가 1970-01-01인 데이터는 지우지 않고 둬도 될듯
- 이해를 넓히는 차원에서 1회만 결제한 유저는 빼고 EDA해보기

리텐션

 - 누적이용, 리텐션 -> 모델에 피쳐로 쓰긴 힘ㄷ믈지만 모델의 성능을 올려주는 피쳐를 선별하는데 의미가 있을 수 있다.

불쾌지수

 - 불쾌지수를 높은날/낮은날 혹은 최고/보통/낮음으로 범주형으로 나타내보면 어떨까?
 - 불쾌지수와 이용별 건수에 대한 상관관계를 좀더 생각해볼 필요가 있다.

코로나

 - 사회적 거리두기 단계를 포함해서 값을 구해보려고 하지만 관련 데이터 취득이 힘들듯.

모델 생성

 - 찬서님이 공유해주신 코드를 참조해 3개 모델중 하나를 선정 후 최적의 
   파라미터 찾는 grid search 방법을 써서 모델을 적용한다.

주중/주말

 - 결제일 분포를 보면 토/일 차이가 있으므로 주중/주말로 나누기보다 요일별로 나누는게 합당
 -  주말/공휴일 여부를 별도의 컬럼으로 표시할지는 EDA를 통해 결정

결제 누적정보

 - test_set에서 누적 결제횟수를 피쳐로 사용한다면 예측값은 주는것과 마찬가지이므로 부적절.
 - train set 정보만을 가지고 각 유저의 누적 결제횟수를 계산한 뒤 등급을 만들고 그 정보를 테스트셋에 
    user_id 기준으로 조인해 활용해보는건 어떨까?

5/13일 까지 해봐야 할 것들

 - 각자마다 피쳐 선택후 모델 결과를 스프레드시트에 공유
 - 찬서님: 베이스 모델 함수 공유 예정
jaehwan2 commented 3 years ago

항목별 꼼꼼한 정리 감사합니다~!!

Aliasss commented 3 years ago

감사합니다!