kohyunsil / Algo_camping

MIT License
2 stars 3 forks source link

[feature/modeling] polar chart 데이터셋 전처리 #35

Closed HyunjinKIM-Chloe closed 3 years ago

HyunjinKIM-Chloe commented 3 years ago

데이터셋

캠핑 리뷰 데이터

  1. 카카오 리뷰 sentence 단위로 분리 후 네이버 카테고리 분류기로 학습
  2. 네이버, 카카오 리뷰 별점
    • 평균 별점 대비 유저 별점으로 가중치 부여
    • 가중치 부여 시 RobustScaler 및 MinMaxScaler 적용
    • 최종 별점 0~5점 사이로 재산출

고캠핑 데이터

  1. API 데이터 + 크롤링 데이터(태그 및 조회수) merge
  2. 점수 산출 대상 컬럼만 남기기
  3. 태그 one hot encoding

가중치 산출