MatB1988 / proyectogrupal

0 stars 0 forks source link

ETL yelp #9

Open dlfjavier opened 9 months ago

dlfjavier commented 9 months ago

Como parte del proceso de ETL se transformó todo el dataset de Yelp a formato parquet para obtener archivos de tamaño manejables con disponibilidad de computo corriente, el resultado es el archivo yelp_to_parquet.ipynb de procesamiento. Este archivo yelp_to_parquet.ipynb, toma los datos del dataset consigna de una carpeta llamada yelp, en la que se encuentran los archivos: business.pkl checkin.json review.json tip.json user.parquet Se crea una version yelp_to_parquet.py como opcion para procesamiento en cloud. Se crea yelp_etl.ipynb y elp_etl.py para cloud. Se cargan los archivos parquet en DataFrames. El DataFrame de business se explora filtrar las filas sin valores NA / NaN en la columna 'categories', para identificar tipo de negocio. Se uitliza palabras clave relacionadas con los negocios gastronómicos para obtener los registros objetivo (["Restaurant", "restaurant", "Food", "food", "Cafe", "cafe", "Diner", "diner", "Bakery", "bakery", "Lunch", "lunch", "Brunch", 'brunch']). Se fusionan los df business, tip y review en un df yelp resultado de esta primer iteracion de tratamiento de los datos. Se aparta para esta etapa checkin.json y user.parquet, informacion por el momento no necesaria para la evalucion propuesta de los negocios gastronómicos.