주어진 데이터셋의 컬럼에 대한 정보가 무엇인지 논의했으나 아직까지는 불분명함. 추론한 바로는 D_TYPE(Day type : 시간권, 당일권, 월정액권), GOODS_TYPE (?), AD1 (지역이나 구 단위로 추정되는데 확인되지 않는 이니셜들이나 '0'이 있음)
분석 방향에 대해 다음과 같은 이슈가 있었음 :
:: 유저ID를 분석에 포함시키지 않을 때 (즉 현재 데이터셋에서 컬럼 자체를 드롭시킬때) 모두컴퍼니에서 요구한 “이용자별” 건수 예측이 가능한가?
:: 유저ID의 중복치를 제거하고 165424개의 고유ID로 줄이면 정보량 손실이 무척 큰데(예를 들어 2020/01~2020/8월까지의 데이터를 가지고 있는 사람의 경우 이 많은 수의 레코드가 단 1개의 레코드로 줄여질 것이므로) 이게 이치에 맞는 일인가?
:: 테스트 데이터에 있는 사람들 중 트레인 데이터에 정보가 없는 사람들은 제외시켜야하는게 아닌가? (머신러닝 학습 자체가 불가하므로)
:: 아니면 현재 데이터 셋을 그대로 둔채 ID 를 모두 레이블 인코딩 시키고 ‘신규/기존’임을 나타내는 추가 컬럼을 생성하여 진행할지?
의견을 모은 결과 유저ID는 드롭시키고 오로지 9-12월의 count를 예측하는데 초점을 맞추기로 함.
2. 역할 분담
팀을 나누어 기본 피처 + 담당한 새로운 피처를 Linear Regression, RandomForest Regressor 로 분석해 오기로 함 :
:: 김태영(팀장), 이해강 : 기본피처 + 요일 관련 피처
:: 정우주, 오병훈, 조아라 : 기본피처 + 날씨 관련 피처
:: 김나영, 박근웅 : 기본피처 + 가입날짜 관련 피처
안녕하세요. 금일 미팅 아젠다입니다.
미팅 시간: 9시 10분
각자 데이터를 보고, 간단히 EDA한 내용을 설명
EDA를 하며 어려웠던 점 혹은 해결방법들을 공유
어떤 feature들을 잡아야 할지 각자의 생각 공유
Feature 분석에대한 역할 분담
미팅 시작전까지 각자의 EDA를 미리 공유하면 좋겠습니다. 감사합니다.