orestes-victor / HENRY_Proyecto_Final_Google_Yelp

En Bidating, aplicamos análisis de sentimientos y ciencia de datos sobre reseñas de Yelp y Google Maps para revelar tendencias y percepciones en el sector turístico y restaurantero. Con tecnologías como Python, PowerBI y Streamlit, transformamos datos en estrategias y oportunidades.
MIT License
2 stars 2 forks source link

Srpint 2: Elección de Herramientas Big Data y Servicios Cloud #23

Closed orestes-victor closed 7 months ago

JavierEdgarEsteban77 commented 7 months ago

Descripción del Trabajo: Selección de Herramientas Big Data y Servicios Cloud:

Elegi trabajar con la API de TripAdvisor Developers y Microsoft Azure, específicamente utilizando Data Factory y Azure Lakehouse, apoyado en un notebook de PySpark para procesar y analizar datos, el tiempo estimado: 6 horas (investigación y selección de herramientas).

Configuración de la Plataforma y Herramientas:

Configuré la plataforma Microsoft Azure, preparando el entorno para utilizar Data Factory y Azure Lakehouse, y estableciendo el notebook en PySpark, el tiempo estimado: 5 horas (configuración del entorno y pruebas preliminares).

Trabajo con la API de TripAdvisor Developers:

Implementé llamadas a la API para obtener datos específicos relacionados con locationId, utilizando para esto la codificación en Python dentro del entorno PySpark el cual adapté el código a nuestros requerimientos, el tiempo estimado: 8 horas (codificación, pruebas de la API, manejo de excepciones y depuración).

Creación de Listas y Archivos Intermedios:

Se creo el archivo .skl para manejar los locationId obtenidos, lo que implica procesamiento intermedio antes de cargar los datos para su análisis final, el tiempo de consumo de la API utilizando un bucle fue de 3 horas (manipulación de datos y creación de archivos).

Consumo de Datos y Creación de DataFrames:

Consumí los datos de la API y los transformaste en DataFrames utilizando PySpark para facilitar el análisis y procesamiento posterior de los mismos dandole formato de tabla al df, el tiempo estimado: 7 horas (programación en PySpark, carga de datos, transformación y optimización).

Análisis y Pruebas:

Realicé el análisis de los datos a través de operaciones sobre los DataFrames, verificando la correcta integración y funcionalidad de los datos consumidos, el tiempo estimado: 3 horas (análisis, ejecución de pruebas y validación de resultados).