En Bidating, aplicamos análisis de sentimientos y ciencia de datos sobre reseñas de Yelp y Google Maps para revelar tendencias y percepciones en el sector turístico y restaurantero. Con tecnologías como Python, PowerBI y Streamlit, transformamos datos en estrategias y oportunidades.
MIT License
2
stars
2
forks
source link
Sprint 3: Culminación del análisis exploratorio de datos #34
Descripción del Trabajo:
Preparación y Configuración del Entorno:
Configure Microsoft Azure y preparé Data Factory y Azure Lakehouse, estableciendo el entorno de trabajo necesario en PySpark para manejar los datos de TripAdvisor, el tiempo estimado fue de 3 horas.
Integración con la API de TripAdvisor Developers:
Implementé y configuré la conexión con la API de TripAdvisor para obtener datos específicos relacionados con los locationId, el tiempo estimado fue de 5 horas (configuración de API, pruebas iniciales y manejo de errores), también cree y maneje archivos (.skl):
Desarrollée un sistema para extraer y guardar los locationId obtenidos de la API en un archivo .skl, que sirve como intermediario en el procesamiento de datos, el tiempo estimado fue de 2 horas (creación y configuración del archivo).
Consumo de Datos y Creación de DataFrames:
Utilicé PySpark para leer los datos del archivo .skl, consumirlos y transformarlos en DataFrames para un análisis más detallado, el tiempo estimado fue de 6 horas (programación en PySpark, carga y transformación de datos).
Análisis Exploratorio de Datos (EDA):
Realizé un análisis exploratorio de los datos para identificar patrones, tendencias y posibles anomalías en el conjunto de datos, utilizando diversas funciones y métodos estadísticos en PySpark, el tiempo estimado fue de 7 horas (análisis detallado, visualización de datos, interpretación de resultados).
Documentación y Reporte:
Documenté todo el proceso y los hallazgos del análisis en un formato adecuado, preparando el contenido para compartir con el equipo o stakeholders, el tiempo estimado fue de 3 horas (preparación de documentación, revisión y ajustes finales).
Carga Horaria Total Estimada: 26 horas. Esta estimación cubre desde la configuración inicial hasta la documentación final, considerando también las tareas de depuración y optimización que puedan surgir.
Consideraciones Adicionales:
Reuniones de seguimiento y coordinación: como somos un equipo, incluimos tiempo para las reuniones de seguimiento o coordinación necesarias todos los días a las 22hrs argentina.
Revisión por pares: la consideración de tiempo adicional fue aproximadamente de 2 horas en cada reunión.
Descripción del Trabajo: Preparación y Configuración del Entorno:
Configure Microsoft Azure y preparé Data Factory y Azure Lakehouse, estableciendo el entorno de trabajo necesario en PySpark para manejar los datos de TripAdvisor, el tiempo estimado fue de 3 horas.
Integración con la API de TripAdvisor Developers:
Implementé y configuré la conexión con la API de TripAdvisor para obtener datos específicos relacionados con los locationId, el tiempo estimado fue de 5 horas (configuración de API, pruebas iniciales y manejo de errores), también cree y maneje archivos (.skl):
Desarrollée un sistema para extraer y guardar los locationId obtenidos de la API en un archivo .skl, que sirve como intermediario en el procesamiento de datos, el tiempo estimado fue de 2 horas (creación y configuración del archivo).
Consumo de Datos y Creación de DataFrames:
Utilicé PySpark para leer los datos del archivo .skl, consumirlos y transformarlos en DataFrames para un análisis más detallado, el tiempo estimado fue de 6 horas (programación en PySpark, carga y transformación de datos).
Análisis Exploratorio de Datos (EDA):
Realizé un análisis exploratorio de los datos para identificar patrones, tendencias y posibles anomalías en el conjunto de datos, utilizando diversas funciones y métodos estadísticos en PySpark, el tiempo estimado fue de 7 horas (análisis detallado, visualización de datos, interpretación de resultados).
Documentación y Reporte:
Documenté todo el proceso y los hallazgos del análisis en un formato adecuado, preparando el contenido para compartir con el equipo o stakeholders, el tiempo estimado fue de 3 horas (preparación de documentación, revisión y ajustes finales).
Carga Horaria Total Estimada: 26 horas. Esta estimación cubre desde la configuración inicial hasta la documentación final, considerando también las tareas de depuración y optimización que puedan surgir.
Consideraciones Adicionales: Reuniones de seguimiento y coordinación: como somos un equipo, incluimos tiempo para las reuniones de seguimiento o coordinación necesarias todos los días a las 22hrs argentina.
Revisión por pares: la consideración de tiempo adicional fue aproximadamente de 2 horas en cada reunión.