[P2/ 김태영/ Agenda] 5.10 미팅

taeyoung94 commented 3 years ago

안녕하세요. 금일 미팅 아젠다입니다.

미팅 시간: 9시 10분

미팅 시작전까지 각자의 EDA를 미리 공유하면 좋겠습니다. 감사합니다.

taeyoung94 commented 3 years ago

EDA입니다.

Na-Young-KIM commented 3 years ago

ilikeinow12 commented 3 years ago

전 파일이 자꾸 안떠서 일단 논의할 이슈만 남기겠습니다. :

train, test set의 COUNT간 특정 구간에 대한 분포차이가 있음. (train에는 없고 test에는 있는 구간) 이 구간에 속한 데이터들을 어떻게 해야할지 논의 필요
거의 모든 COUNT가 1에 몰려있음
시계열 데이터 특성을 사용한 분석이 필요한건지? 가능한건지? cyclical이 보이긴 한데 요것만 취해서 분석에 활용할 수 있는건지?
ID 컬럼 - 버리는 경우, 취하는 경우 모두 테스트 해 봐야할 듯?
D_TYPE, GOODS_TYPE, AD1 에 대한 정확한 정보 필요
1차적으로는 COUNT 컬럼과 크게 상관있는 피처가 없어보임. Month제외하고. 그러니 외부 데이터를 활용해야 할 것 같은데 어떻게 활용할 건지? - 날씨 데이터 중 취할 피처, 교통량 정보는 어떻게 처리할건지
https://nbviewer.jupyter.org/gist/ilikeinow12/deebe85ef326f593bbdf81f1ff391a0c

hk1486 commented 3 years ago

OHBEYOUNGHUN commented 3 years ago

pgw928 commented 3 years ago

woojuj commented 3 years ago

ilikeinow12 commented 3 years ago

======= 회의 정리 ======= 1. 이슈

주어진 데이터셋의 컬럼에 대한 정보가 무엇인지 논의했으나 아직까지는 불분명함. 추론한 바로는 D_TYPE(Day type : 시간권, 당일권, 월정액권), GOODS_TYPE (?), AD1 (지역이나 구 단위로 추정되는데 확인되지 않는 이니셜들이나 '0'이 있음)
분석 방향에 대해 다음과 같은 이슈가 있었음 :
:: 유저ID를 분석에 포함시키지 않을 때 (즉 현재 데이터셋에서 컬럼 자체를 드롭시킬때) 모두컴퍼니에서 요구한 “이용자별” 건수 예측이 가능한가? :: 유저ID의 중복치를 제거하고 165424개의 고유ID로 줄이면 정보량 손실이 무척 큰데(예를 들어 2020/01~2020/8월까지의 데이터를 가지고 있는 사람의 경우 이 많은 수의 레코드가 단 1개의 레코드로 줄여질 것이므로) 이게 이치에 맞는 일인가? :: 테스트 데이터에 있는 사람들 중 트레인 데이터에 정보가 없는 사람들은 제외시켜야하는게 아닌가? (머신러닝 학습 자체가 불가하므로) :: 아니면 현재 데이터 셋을 그대로 둔채 ID 를 모두 레이블 인코딩 시키고 ‘신규/기존’임을 나타내는 추가 컬럼을 생성하여 진행할지? 의견을 모은 결과 유저ID는 드롭시키고 오로지 9-12월의 count를 예측하는데 초점을 맞추기로 함.

2. 역할 분담

팀을 나누어 기본 피처 + 담당한 새로운 피처를 Linear Regression, RandomForest Regressor 로 분석해 오기로 함 : :: 김태영(팀장), 이해강 : 기본피처 + 요일 관련 피처 :: 정우주, 오병훈, 조아라 : 기본피처 + 날씨 관련 피처 :: 김나영, 박근웅 : 기본피처 + 가입날짜 관련 피처

ilikeinow12 / team2_wanted_onboarding