ucd-dnp / leila

Librería para la evaluación de calidad de datos, e interacción con el portal de datos.gov.co
https://ucd-dnp.github.io/leila/
Other
59 stars 22 forks source link

Adición de métricas de calidad de datos #6

Closed JorgeQuintanaL closed 3 years ago

JorgeQuintanaL commented 3 years ago

Se agregaron 9 métricas para la evaluación de la calidad de datos de los conjuntos de datos descargados desde datos.gov.co. Adicionalmente, se refactorizó el código agregando clases para Datos e Inventario. Este cambio hace que sea más sencillo el manejo del inventario y además almacena los datos y la metadata como atributos de los conjuntos de datos descargados, los cuales son cruciales para poder calcular las nuevas métricas de calidad de datos. También se arreglo un issue con la función de generar_reporte la cual fallaba cuando en el conjunto de datos no hay variables numéricas. Finalmente, se actualizó tanto el Notebook como los archivos .py de la carpeta de ejemplos, pero no se actualizó la documentación en la cerpeta docs ya que no tengo ni los datasets que usaron para ejecutar las pruebas ni el detalle para la generación de dicha documentación. Aquí pedimos su apoyo para re-generar la documentación una vez aceptados los cambios."[kriterion_metricas_calidad 61c8858] Se agregaron 9 métricas para la evaluación de la calidad de datos de los conjuntos de datos descargados desde datos.gov.co. Adicionalmente, se refactorizó el código agregando clases para Datos e Inventario. Este cambio hace que sea más sencillo el manejo del inventario y además almacena los datos y la metadata como atributos de los conjuntos de datos descargados, los cuales son cruciales para poder calcular las nuevas métricas de calidad de datos. También se arreglo un issue con la función de generar_reporte la cual fallaba cuando en el conjunto de datos no hay variables numéricas. Finalmente, se actualizó tanto el Notebook como los archivos .py de la carpeta de ejemplos, pero no se actualizó la documentación en la cerpeta docs ya que no tengo ni los datasets que usaron para ejecutar las pruebas ni el detalle para la generación de dicha documentación. Aquí pedimos su apoyo para re-generar la documentación una vez aceptados los cambios

pablomonhel commented 3 years ago

Buenas tardes,

Estamos revisando el pull request y evaluando los cambios que podríamos implementar en LEILA. Sin embargo, pronto saldremos al receso de fin de año y retomaremos labores a finales de enero, por lo que seguiremos con la revisión en 2021.

Les agradecemos el interés en la librería y esperamos contactarlos pronto

Cordial saludo

Unidad de Científicos de Datos del DNP

ucd-dnp commented 3 years ago

Buenas tardes,

Hemos revisado los cambios propuestos en el pull request y a continuación resumimos los comentarios generales.

En cuanto al módulo datos_gov, nos pareció interesante su reescritura basada en clases y vemos su potencial a la hora de agregar nuevas funcionalidades. Sin embargo, como se encuentra en el pull request cambia bastante la experiencia de un usuario actual. Por esa razón, trabajaremos sobre esos cambios para eventualmente adaptar este módulo a la librería.

Por el otro lado, tenemos varios comentarios sobre las funcionalidades agregadas al módulo calidad_datos. En primer lugar, en el momento estamos trabajando en la construcción de un indicador de calidad, por lo cual cualquier propuesta que incluya resultados con indicadores los adaptaríamos, si los consideramos relevantes, una vez hayamos construido el nuestro.

Sobre las funciones propuestas llamadas Actualidad, Credibilidad, Trazabilidad, Conformidad y Portabilidad, estas hacen referencia a los metadatos del Portal de Datos Abiertos, por lo cual no deberían estar en el módulo calidad_datos. Adicionalmente, un usuario ya puede averiguar información sobre los metadatos de un conjunto de datos del Portal desde el módulo datos_gov. Podríamos en un futuro incluir funciones que contengan alertas sobre las características de los metadatos como lo hacen Actualidad, Credibilidad, Trazabilidad, Conformidad y Portabilidad, pero posiblemente no como indicadores sino como alertas.

La función Comprensibilidad, para comparar los nombres de los metadatos con los de un conjunto de datos, nos interesó y también podríamos integrar una función similar a la librería una vez adaptemos datos_gov. Igual con la función Exactitud.

En cuanto a la función Consistencia, que calcula los duplicados de filas de un conjunto de datos del Portal de Datos Abiertos, LEILA ya tiene funciones para evaluar duplicados para columnas y filas (CantidadDuplicados y EmparejamientoDuplicados), por lo cual no vemos necesario agregar otra.

Adicionalmente, encontramos dificultades para poder abrir los conjuntos de datos originales del Portal de Datos Abiertos en un formato dataframe y no pudimos crear el reporte automático para varios conjuntos de datos (el reporte siempre tiene que poder crearse para un conjunto de datos estructurado).

De acuerdo con los comentarios que se mencionaron arriba, nos gustaría trabajar sobre los cambios propuestos en el módulo datos_gov para adaptarlos a la librería. Sin embargo, no podemos integrar los cambios como están en este momento directamente a una de las ramas existentes porque se modificaría demasiado la experiencia para un usuario actual. Además, como el pull request tiene demasiados cambios pequeños, se crearían conflictos con las modificaciones que hemos hecho hasta el momento.

Por esta razón, aceptaremos el pull request en la rama pr_kriterion, que acabamos de crear, para hacer los cambios que consideremos pertinentes a datos_gov, los cuales integraríamos a la rama master en el futuro.

Por último, les recomendamos visitar el wiki en GitHub de la librería LEILA, donde podrán acceder al cronograma de trabajo, las guías de contribución y de issues y leer las reglas de la comunidad:

https://github.com/ucd-dnp/leila/wiki

Les agradecemos su interés por la librería y sus propuestas para mejorarla. Esperamos que sigan acompañándonos en su evolución y estamos atentos a sus comentarios y propuestas.

Cordial saludo

Equipo de Científicos de Datos del DNP