Adalab / project2-da-promo-c-modulo-2-team4

1 stars 4 forks source link

2.1 Identificar la limpieza de datos a aplicar 🧼 #8

Open natigl opened 1 year ago

natigl commented 1 year ago

Hemos renombrado las columnas de los ficheros, falta renombrar CSV ,XML al terminar de explorar y tener claro que información de dichas columnas querremos utilizar

natigl commented 1 year ago

CRITERIOS DE ACEPTACION

Realizar una selección de las variables que resulten más interesantes de análisis.

Realizar la limpieza de las columnas seleccionadas.

Guardar el dataset limpio en un fichero csv diferente al original.

DOD: Tener otro conjunto de datos con las columnas que posteriormente realizaremos en análisis en formato csv y en el repositorio de GitHub.

natigl commented 1 year ago

Producto: Se va a proveer al cliente de información sobre los conocimientos y herramientas más demandads en el mercado laboral, respecto análisis de datos. Tiene una perspectiva de género en el análisi a nivel transversal.

Objetivos:

Preguntas de investigación:

1. ¿Cuál es el perfil de un/una analista de datos?

Perfil del analista de datos: género, edad, nivel de estudios más alto alcanzado, cuánto llevan programando. Estado de la brecha de género.

¿Cuál es el perfil de un analista de datos?

Q1-edad Q2-genero Q3-país . Tal vez agrupar por continente o lo que veamos. Q4-educación. Q5- Ocupación. Tal vez agrupar por técnico, perfil de producto, estudiante Q6- Experiencia. Está en rangos

Perfil de la industria: actividad donde trabajan, tamaño de la empresa, donde trabajan más data analistas ¿Cuál es el perfil de las insdustrias donde trabajan analistas de datos?

2.-¿Cuál industria paga mejor?

q20 - q22, q25 Q20 = i_actual Q21 = e_tamanio Q22 = e_analistas Q24 = e_actividades Q25 = salario_actual

Herramientas y conocimientos: comparación entre data y machine. comparación entre profesionales y no profesionales (cómo se están formando)

3. -¿Qué habilidades y herramientas se utilizan más?

q33, q32 herramientas, el perfil del data analyst (estudio de mercado a quien enfocar) (Qué herramientas son las más demandadas). Q7 = l_utilizando Q8 = l_recomendado Q9 = adi (ambientes de desarrollo integrado) Q11 = plataformas Q12 = hardware -- fuera- BORRADA Q13 = tpu (tensor processing unit) -- fuera - BORRADA_COLUMNAS_EXTRA_ELIMINADAS_1 Q14 = visualizacion Q26 = presupuesto_ml_cc Q32-A = big_products Q33 = big_products_used Q41 = tool_ppal

Q10= Notebook que utilizas normalmente: 17 opciones

Q27= q27-A:Que plataformas de cloud computing utilizas regularmente: 12 opciones...

q28: Que plataforma de cloud tienes la mejor experiencia para desarrollar : 13 opciones -- fuera

q29-A : Utilizas normalmente algunos de los productos de cloud computing: 5 opciones --fuera

q30-A: Usas normalmente de alguna data storage: 8 opciones --fuera

q31-A: Utilizas regularmente alguno de los producto de managed machine learning --fuera

q32-A: Producto big data que utilizas regularmente.: 21 opciones --fuera

q33 :Producto de big data que utilizas regularmente solo las personas que respondieron mas de una opcion en la q32-a: 21 opciones

q34-a: Uso regular de herramientas de inteligencia de negocios: 17 opciones -- fuera

q35: Cuales son las que más, Relacionada con la q34-a si tienes mas de un opción en la 34 : 17 opciones.

q36-a : Utiliza alguna herramienta de automatización de machine learning : 8 opciones --fuera

q37-a: Cuales herramientas: Relacionada con la 36-a solo las que responden SI: 8 opciones --fuera

q38-a: Tiene herramientas para controlar los experimentos de manage machine learning : 12 opciones --fuera

q39 : Donde compartes tus análisis de datos y aplicaciones de machine learning : 10 opciones

q40: En que plataformas iniciaste tu formación de análisis de datos: 12 opciones.

q41: Cual es la herramienta principal que utilizas en el trabajo o escuela para procesar datos: 6 opciones

q42: Cual es tu red social favorita relacionada con el data science : 12 opciones

natigl commented 1 year ago

Gráficas que nos aportarían info para nuestro análisis: Grafica de correlación entre genero, y salario por ejemplo, años de experiencia, empleo

Gráfica de barras para comparar programas mas utilizados, o lenguajes

Boxplots de columnas importantes, como genero y salario (convertir a numérica)