Open felipedonoso opened 3 years ago
Utilizaremos la función glimpse
Obtener las métricas sobre tipos de datos, ceros, números infinitos y valores perdidos: status(data)
¿Están todas las variables en el tipo de datos correcto?
En nuestra apreciación los campos de fechas, como: FECHA_INICIAL / FECHA_DETECCION, hay que ver si esto nos afectará al momento de requerir data por intervalos de tiempo, aunque siempre esta la posibilidad de trasformas las variables.
¿Variables con muchos ceros o NA?
En esta ocasión, no hay datos con valores NA. Lo que facilita el trabajo de limpieza de la data.
¿Alguna variable de cardinalidad alta?
Al principio teniamos dudas respecto al ID, pero luego de ejecutar la función:
Ningún valor fue menor a 0, un valor negativo lo que indicaría que serían variables de alta cardinalidad y que hubiese que trabajar y ver como tratar dicho problema.
freq(datos):
Utilizaremos plot_num y profiling_num. Ambos se ejecutan automáticamente para todas las variables numéricas / enteras:
Se puede observar lo siguiente:
La variable N_OPERACIONES,
Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 2.000 4.000 7.154 5.000 96.000
Lo primero a realizar en nuestra data es poder realizar un análisis univariado y bivariado.
Primero analizaremos los datos de manera general, buscando lo siguiente: