da-analysis / asac_4_dataanalysis

ASAC 4기 Data Analysis Project
0 stars 1 forks source link

메타 데이터 전처리 #2

Open syleeie2310 opened 4 months ago

syleeie2310 commented 4 months ago

Summary

메타 데이터 기초 전처리 (json 파일) > data.frame 형태로 저장해주세요. feature는 3분이 논의해서 결정해서 저장하심 됩니다.

Todo

Importance

중요

Reference

https://tacademykr-daanalysis.cloud.databricks.com/?o=647747681770278#notebook/1025307519588662/command/1025307519588664

syleeie2310 commented 4 months ago
syleeie2310 commented 4 months ago

Cell Phones and Accessories - 지윤님 Sports and Outdoors - 민종님

중점적으로 봐야되는 것은 우선 토요일에 보셨던 결측치 갯수, 카테고리 (중카/소카..) 갯수 확인, 가격 이라던지.. 브랜드 유니크 갯수

syleeie2310 commented 3 months ago

pyspark pandas api 사용해서 전처리 하고 아래처럼 parquet 파일로 저장해주세요.

https://spark.apache.org/docs/latest/api/python/reference/pyspark.pandas/api/pyspark.pandas.DataFrame.to_parquet.html

옵션에 codec 설정 (zstd)

syleeie2310 commented 3 months ago

두분 코드 합쳐서 각 델타 테이블 만들어주세요.

syleeie2310 commented 3 months ago

overwrite 스키마 옵션

https://docs.databricks.com/en/delta/update-schema.html