Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, largos de textos, máximos/mínimos de números y fechas, valores únicos y valores por default. También permite clasificar los campos en aplicabilidad de derechos ARCO para facilitar la implementación de leyes de protección de datos tipo GDPR, identificar los niveles de seguridad y si se está aplicando algún tipo de encriptación. Adicionalmente permite agregar reglas de validación más complejas sobre la misma tabla.
Apache License 2.0
11
stars
7
forks
source link
Pausar fallas de regla de calidad hasta confirmar/rechazar por operador #124
agregar opción en métodos de DQ (tanto de clase huemul_DQ como en DQ de DataFrameHuemul) para indicar forma de continuar en caso de fallar, y que la regla esté configurada con ERRROR:
1- Fallar: comportamiento actual, si falla la regla el proceso se cae y no continúa
decisión humana: indicar en el modelo de control de procesos la forma de proceder (fallar, continuar a pesar del error)
se debe generar una nueva tabla en el modelo de control que permita registrar estas decisiones, y relacionar con la tabla de reglas de calidad, para saber que la regla falló, pero que el proceso tomó un comportamiento distinto)
La idea es que, al incluir reglas de calidad que validen el tamaño de un archivo, o la cantidad de filas procesadas, estas reglas puedan tener la opción de ser excepcionadas y que el proceso continúe. En ocasiones las reglas por cantidad de filas son un problema para las áreas de producción y desarrollo. Por cambios en el comportamiento de los sistemas (por ejemplo llegan muchos más registros que los esperados estacionalidad o por un evento específico), muchas veces estas reglas no son implementadas porque detienen el flujo productivo, la idea es dar opciones al administrador de producción para decidir que hacer, y luego estas reglas sean ajustadas dependiendo de la nueva realidad.
agregar opción en métodos de DQ (tanto de clase huemul_DQ como en DQ de DataFrameHuemul) para indicar forma de continuar en caso de fallar, y que la regla esté configurada con ERRROR:
1- Fallar: comportamiento actual, si falla la regla el proceso se cae y no continúa
La idea es que, al incluir reglas de calidad que validen el tamaño de un archivo, o la cantidad de filas procesadas, estas reglas puedan tener la opción de ser excepcionadas y que el proceso continúe. En ocasiones las reglas por cantidad de filas son un problema para las áreas de producción y desarrollo. Por cambios en el comportamiento de los sistemas (por ejemplo llegan muchos más registros que los esperados estacionalidad o por un evento específico), muchas veces estas reglas no son implementadas porque detienen el flujo productivo, la idea es dar opciones al administrador de producción para decidir que hacer, y luego estas reglas sean ajustadas dependiendo de la nueva realidad.