- 시간대로 나눠서 join하게 되면 row by로 모든 시간대가 다 들어감으로 파악이 힘들다.
- 교통량 변수를 쓴다면 날짜당 하나의 평균값
- 실전 db데이터를 적극 활용해 보고 후행적으로 사용하는 방법
이상치 처리
- heavy user 데이터 제거 (user_id = 999665)
- 유저ID와 join_date(가입이후 개월수)가 같이 가는 추세 (가입한 순서대로 user_id가 부여됐다면
상관관계가 1에 가깝게 나올 가능성 있음) --> 둘중 하나만 쓰면 될거같다. join_date 컬럼 정보를 안쓰게 되면
join_date가 1970-01-01인 데이터는 지우지 않고 둬도 될듯
- 이해를 넓히는 차원에서 1회만 결제한 유저는 빼고 EDA해보기
리텐션
- 누적이용, 리텐션 -> 모델에 피쳐로 쓰긴 힘ㄷ믈지만 모델의 성능을 올려주는 피쳐를 선별하는데 의미가 있을 수 있다.
불쾌지수
- 불쾌지수를 높은날/낮은날 혹은 최고/보통/낮음으로 범주형으로 나타내보면 어떨까?
- 불쾌지수와 이용별 건수에 대한 상관관계를 좀더 생각해볼 필요가 있다.
코로나
- 사회적 거리두기 단계를 포함해서 값을 구해보려고 하지만 관련 데이터 취득이 힘들듯.
모델 생성
- 찬서님이 공유해주신 코드를 참조해 3개 모델중 하나를 선정 후 최적의
파라미터 찾는 grid search 방법을 써서 모델을 적용한다.
주중/주말
- 결제일 분포를 보면 토/일 차이가 있으므로 주중/주말로 나누기보다 요일별로 나누는게 합당
- 주말/공휴일 여부를 별도의 컬럼으로 표시할지는 EDA를 통해 결정
결제 누적정보
- test_set에서 누적 결제횟수를 피쳐로 사용한다면 예측값은 주는것과 마찬가지이므로 부적절.
- train set 정보만을 가지고 각 유저의 누적 결제횟수를 계산한 뒤 등급을 만들고 그 정보를 테스트셋에
user_id 기준으로 조인해 활용해보는건 어떨까?
5/13일 까지 해봐야 할 것들
- 각자마다 피쳐 선택후 모델 결과를 스프레드시트에 공유
- 찬서님: 베이스 모델 함수 공유 예정
논의 사항
교통량 관련
이상치 처리
리텐션
불쾌지수
코로나
모델 생성
주중/주말
결제 누적정보
5/13일 까지 해봐야 할 것들