orestes-victor / HENRY_Proyecto_Final_Google_Yelp

En Bidating, aplicamos análisis de sentimientos y ciencia de datos sobre reseñas de Yelp y Google Maps para revelar tendencias y percepciones en el sector turístico y restaurantero. Con tecnologías como Python, PowerBI y Streamlit, transformamos datos en estrategias y oportunidades.
MIT License
2 stars 2 forks source link

Sprint 3: Culminación del análisis exploratorio de datos #34

Open maferhel opened 2 months ago

JavierEdgarEsteban77 commented 2 months ago

Descripción del Trabajo: Preparación y Configuración del Entorno:

Configure Microsoft Azure y preparé Data Factory y Azure Lakehouse, estableciendo el entorno de trabajo necesario en PySpark para manejar los datos de TripAdvisor, el tiempo estimado fue de 3 horas.

Integración con la API de TripAdvisor Developers:

Implementé y configuré la conexión con la API de TripAdvisor para obtener datos específicos relacionados con los locationId, el tiempo estimado fue de 5 horas (configuración de API, pruebas iniciales y manejo de errores), también cree y maneje archivos (.skl):

Desarrollée un sistema para extraer y guardar los locationId obtenidos de la API en un archivo .skl, que sirve como intermediario en el procesamiento de datos, el tiempo estimado fue de 2 horas (creación y configuración del archivo).

Consumo de Datos y Creación de DataFrames:

Utilicé PySpark para leer los datos del archivo .skl, consumirlos y transformarlos en DataFrames para un análisis más detallado, el tiempo estimado fue de 6 horas (programación en PySpark, carga y transformación de datos).

Análisis Exploratorio de Datos (EDA):

Realizé un análisis exploratorio de los datos para identificar patrones, tendencias y posibles anomalías en el conjunto de datos, utilizando diversas funciones y métodos estadísticos en PySpark, el tiempo estimado fue de 7 horas (análisis detallado, visualización de datos, interpretación de resultados).

Documentación y Reporte:

Documenté todo el proceso y los hallazgos del análisis en un formato adecuado, preparando el contenido para compartir con el equipo o stakeholders, el tiempo estimado fue de 3 horas (preparación de documentación, revisión y ajustes finales).

Carga Horaria Total Estimada: 26 horas. Esta estimación cubre desde la configuración inicial hasta la documentación final, considerando también las tareas de depuración y optimización que puedan surgir.

Consideraciones Adicionales: Reuniones de seguimiento y coordinación: como somos un equipo, incluimos tiempo para las reuniones de seguimiento o coordinación necesarias todos los días a las 22hrs argentina.

Revisión por pares: la consideración de tiempo adicional fue aproximadamente de 2 horas en cada reunión.