da-analysis / asac_5_dataanalysis

ASAC 5기 Data Analysis Project (google map recommendation system)
0 stars 1 forks source link

구글 리뷰/메타 데이터 탐색적 데이터 분석 #4

Closed syleeie2310 closed 4 months ago

syleeie2310 commented 5 months ago

구글 메타 데이터 탐색적 데이터 분석

syleeie2310 commented 4 months ago

임혜원님 피드백 1) 데이터 볼 때 비율 등 학인하거나, density 로 보여주거나 2) 가격 정보 ₩가 무엇인지 파악. 3) MISC에서 어떤 key가 필요한지

https://ohbom.notion.site/2-d20c87ddf402445eb38b9b4d80c46007?pvs=4

syleeie2310 commented 4 months ago

설하님 피드백

  1. 결측치 : user_id가 결측치가 많음 (트립닷컴), rating 외부 플랫폼에서 리뷰 남기면 rating, user_id가 결측치로 보이는게 의견
  2. text review에 어떤 단어가 들어가있는지에 따라 평균 평점 차이
  3. 메타 데이터 결측치, 가격/설명이 가장 많이 빠져있음
  4. 카테고리가 다양한 형태
  5. 메타 데이터에 있는 가게별 리뷰 갯수 분포를 조금 더 자세히 훑어보면 도움 될 것

https://quirky-age-880.notion.site/EDA-ce7f51ac7bf949db8b35d637c6c0a9bf

syleeie2310 commented 4 months ago

윤정님 피드백

  1. 카테고리 컬럼 전처리 필요 (대/중/소) 에 대한 아이디어가 필요한 상태
  2. 맵 지도 분석 구글 시트 방식/파이썬 구현 방식
  3. MISC 내용 > LLM 활용 방안
  4. user_id, name 확인 > user_id가 null이면 호텔스 닷컴인 경우 name (외부 플랫폼 경우) ㄴ A googler User의 경우, user_id가 다름

지도 시각화 필요한 경우에도 클러스터 만든다. ㄴ 태블로도 검토

https://juicy-nectarine-421.notion.site/_-4099e31eff1f4e2a87faf78b3cbefccb?pvs=4

syleeie2310 commented 4 months ago

양희선 피드백

  1. 리뷰 남길 때 시간 기준이 UTC인지 파악 필요
  2. 메타 데이터 > 요일마다 운영 시간 데이터 전처리 (요일별 운영 시간)
  3. 주소 처리 방식에 대한 고민 ㄴstreet, city, state, zipcode
syleeie2310 commented 4 months ago

임수정 피드백

  1. 데이터 전처리 기준에 대한 논의 필요
  2. 평균 평점의 분포도 / 리뷰 갯수에 따라 어떤 식으로 봐야할지 고민 필요
  3. avg_rating 과 price 의 상관관계 확인

https://cuboid-pound-a57.notion.site/EDA-43200d8477f545e3999bfd961ef3ef28?pvs=4

syleeie2310 commented 4 months ago

@heesunTukorea , @soojeonglim 님도 여유되실 때 수요일에 보여주었던거 자료를 올려주심 좋을 듯 합니다~~!!