magisterDataScienceUAI / modelamientoPredictivo

Talleres o trabajos relacionados al curso de Modelamiento Predictivo
0 stars 0 forks source link

EDA - MODELAMIENTO_MONTO_FRAUDE #2

Open felipedonoso opened 3 years ago

felipedonoso commented 3 years ago

Lo primero a realizar en nuestra data es poder realizar un análisis univariado y bivariado.

Primero analizaremos los datos de manera general, buscando lo siguiente:

  1. Tipos de datos
  2. Valores atípicos
  3. Valores faltantes
  4. Distribuciones (numérica y gráficamente) tanto para variables numéricas como categóricas.
felipedonoso commented 3 years ago

Primer acercamiento:

Utilizaremos la función glimpse

image

Obtener las métricas sobre tipos de datos, ceros, números infinitos y valores perdidos: status(data)

  1. Acá podremos identificar el total y porcentaje de ceros: (q_zeros) y (p_zeros)
  2. Mismas métricas para los valores NA: (q_NA / p_na)
  3. Valores infinitos: (q_inf / p_inf)
  4. Las últimas dos columnas, indican el tipo de datos y la cantidad de valores únicos.

image

felipedonoso commented 3 years ago

Analizamos las siguientes inquietudes:

¿Están todas las variables en el tipo de datos correcto?

En nuestra apreciación los campos de fechas, como: FECHA_INICIAL / FECHA_DETECCION, hay que ver si esto nos afectará al momento de requerir data por intervalos de tiempo, aunque siempre esta la posibilidad de trasformas las variables.

¿Variables con muchos ceros o NA?

En esta ocasión, no hay datos con valores NA. Lo que facilita el trabajo de limpieza de la data.

¿Alguna variable de cardinalidad alta?

Al principio teniamos dudas respecto al ID, pero luego de ejecutar la función:

Ningún valor fue menor a 0, un valor negativo lo que indicaría que serían variables de alta cardinalidad y que hubiese que trabajar y ver como tratar dicho problema.

felipedonoso commented 3 years ago

Analizar variables categóricas

freq(datos):

image

image

felipedonoso commented 3 years ago

Analizar variables numéricas

Utilizaremos plot_num y profiling_num. Ambos se ejecutan automáticamente para todas las variables numéricas / enteras:

image

Se puede observar lo siguiente:

La variable N_OPERACIONES,

Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 2.000 4.000 7.154 5.000 96.000