Open natigl opened 1 year ago
CRITERIOS DE ACEPTACION
Realizar una selección de las variables que resulten más interesantes de análisis.
Realizar la limpieza de las columnas seleccionadas.
Guardar el dataset limpio en un fichero csv diferente al original.
DOD: Tener otro conjunto de datos con las columnas que posteriormente realizaremos en análisis en formato csv y en el repositorio de GitHub.
Producto: Se va a proveer al cliente de información sobre los conocimientos y herramientas más demandads en el mercado laboral, respecto análisis de datos. Tiene una perspectiva de género en el análisi a nivel transversal.
Objetivos:
Preguntas de investigación:
1. ¿Cuál es el perfil de un/una analista de datos?
Perfil del analista de datos: género, edad, nivel de estudios más alto alcanzado, cuánto llevan programando. Estado de la brecha de género.
¿Cuál es el perfil de un analista de datos?
Q1-edad Q2-genero Q3-paÃs . Tal vez agrupar por continente o lo que veamos. Q4-educación. Q5- Ocupación. Tal vez agrupar por técnico, perfil de producto, estudiante Q6- Experiencia. Está en rangos
Perfil de la industria: actividad donde trabajan, tamaño de la empresa, donde trabajan más data analistas ¿Cuál es el perfil de las insdustrias donde trabajan analistas de datos?
2.-¿Cuál industria paga mejor?
q20 - q22, q25 Q20 = i_actual Q21 = e_tamanio Q22 = e_analistas Q24 = e_actividades Q25 = salario_actual
Herramientas y conocimientos: comparación entre data y machine. comparación entre profesionales y no profesionales (cómo se están formando)
3. -¿Qué habilidades y herramientas se utilizan más?
q33, q32 herramientas, el perfil del data analyst (estudio de mercado a quien enfocar) (Qué herramientas son las más demandadas). Q7 = l_utilizando Q8 = l_recomendado Q9 = adi (ambientes de desarrollo integrado) Q11 = plataformas Q12 = hardware -- fuera- BORRADA Q13 = tpu (tensor processing unit) -- fuera - BORRADA_COLUMNAS_EXTRA_ELIMINADAS_1 Q14 = visualizacion Q26 = presupuesto_ml_cc Q32-A = big_products Q33 = big_products_used Q41 = tool_ppal
Q10= Notebook que utilizas normalmente: 17 opciones
Q27= q27-A:Que plataformas de cloud computing utilizas regularmente: 12 opciones...
q28: Que plataforma de cloud tienes la mejor experiencia para desarrollar : 13 opciones -- fuera
q29-A : Utilizas normalmente algunos de los productos de cloud computing: 5 opciones --fuera
q30-A: Usas normalmente de alguna data storage: 8 opciones --fuera
q31-A: Utilizas regularmente alguno de los producto de managed machine learning --fuera
q32-A: Producto big data que utilizas regularmente.: 21 opciones --fuera
q33 :Producto de big data que utilizas regularmente solo las personas que respondieron mas de una opcion en la q32-a: 21 opciones
q34-a: Uso regular de herramientas de inteligencia de negocios: 17 opciones -- fuera
q35: Cuales son las que más, Relacionada con la q34-a si tienes mas de un opción en la 34 : 17 opciones.
q36-a : Utiliza alguna herramienta de automatización de machine learning : 8 opciones --fuera
q37-a: Cuales herramientas: Relacionada con la 36-a solo las que responden SI: 8 opciones --fuera
q38-a: Tiene herramientas para controlar los experimentos de manage machine learning : 12 opciones --fuera
q39 : Donde compartes tus análisis de datos y aplicaciones de machine learning : 10 opciones
q40: En que plataformas iniciaste tu formación de análisis de datos: 12 opciones.
q41: Cual es la herramienta principal que utilizas en el trabajo o escuela para procesar datos: 6 opciones
q42: Cual es tu red social favorita relacionada con el data science : 12 opciones
Gráficas que nos aportarÃan info para nuestro análisis: Grafica de correlación entre genero, y salario por ejemplo, años de experiencia, empleo
Gráfica de barras para comparar programas mas utilizados, o lenguajes
Boxplots de columnas importantes, como genero y salario (convertir a numérica)
Hemos renombrado las columnas de los ficheros, falta renombrar CSV ,XML al terminar de explorar y tener claro que información de dichas columnas querremos utilizar