Repositorio del proyecto del modulo 2 grupo 6 del Bootcamp de DA.
![wordcloud](https://user-images.githubusercontent.com/114858493/212744269-f98a38ba-04dc-45cd-8806-819ab83696f5.png)
El objetivo del proyecto es el análisis a través de visualización de los resultados de una encuesta de Keagle sobre el comportamiento del sector del ML y data science.
Partimos de cuatro archivos en diferentes formatos que continen respuestas a las diferentes preguntas de la encuesta.
El grupo 6 esta formado por : Lola Rubio, Marina Ruiz, Sandra Fernandez y Paula Fuente
Stack tecnológico
- Pandas: para la unión de fuentes de datos, procesado y limpieza de datos.
- Matplotlib/Seaborn: para la visualización de datos.
- Sidetable: para obtener estadísticas de los conjuntos de datos.
- Sckit-Learn: para codificar los datos y poder normalizarlos.
Organización del repositorio
- Archivos: con todos los archivos de datos con los que trabajamos a lo largo del proyecto
- EDA: podemos encontrar tres JupyterNotebook con el análisis exploratorio de los datos, uno previo más genérico y dos centrándonos en las preguntas objetivo.
- Exploracion_unificacion: contiene los notebooks realizados para la limpieza preliminar y la unión de los diferentes archivos facilitados por la encuesta.
- Graficas: contiene todas las gráficas generadas para la Demo final de proyecto.
- Limpieza: contiene el varios notebooks de limpieza tras la unión para poder tener las columnas en el mismo formato y poder realizar correctamente el EDA, así como la limpieza de los datos según los dos df creados de profesionales y no profesionales.
- Visualización: con los notebooks con el código generado para hacer las gráficas utilizadas en la demo final.
- Archivo indice de contenidos: indice más detallado de los contenidos del repositorio.
Preguntas objetivo
Para el análisis de los datos nos hemos planteado una serie de preguntas a las que daremos respuesta a través del análisis gráfico mediante Matplotlib/Seaborn:
- Principales herramienta de trabajo q14
- Lenguajes que recomiendan los usuarios q8
- Plataformas en las que has realizado cursos q40
- Sitios donde se comparte q39
- Hacia donde dirigir la formación - preguntas B
- Análisis de las variables genéricas relacionadas con el género
Conclusiones obtenidas
El bootcamp de de Data Analytics de Adalab se adapta perfectamente a las necesidades presentes como futuras del mercado ya que su oferta académica se basa en lenguajes como python y SQL, las herramientas de visualización son Matplotlib y Seaborn y la de bi es Tableau, aunque como recomendación proponemos incluir PowerBI y MongoDB dentro de su oferta académica.
![herr_vis_def](https://user-images.githubusercontent.com/114858493/212744141-63fa1b0c-892e-4e51-85c0-0fc23a38c341.png)
![business_inteligence](https://user-images.githubusercontent.com/114858493/212744138-5bbaa9b1-8cff-4fd5-9a6b-11113abdb6be.png)
Por otro lado otra importante coclusión es que la brecha de género dentro del sector tech es muy amplia y aún nos queda mucho camino para lograr la paridad.
![salario_genero](https://user-images.githubusercontent.com/114858493/212744143-debfdee6-f079-496c-8087-b3543d3525a9.png)