Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, largos de textos, máximos/mínimos de números y fechas, valores únicos y valores por default. También permite clasificar los campos en aplicabilidad de derechos ARCO para facilitar la implementación de leyes de protección de datos tipo GDPR, identificar los niveles de seguridad y si se está aplicando algún tipo de encriptación. Adicionalmente permite agregar reglas de validación más complejas sobre la misma tabla.
Se requiere una funcionalidad para generar datos y enmarscarar datos, para ello se debe seguir la siguiente secuencia:
Definir un archivo de entrada utilizando la clase huemul_DataLake.
Definir para cada columna, las reglas de enmascarado y/o encriptación.
Para la función "enmascarar" se debe abrir un archivo ya existente y enmascarar los datos según las reglas especificadas.
para la función "generar_datos" se deben inventar datos a partir de distintos dominios (números, textos, direcciones, nombres, etc). Se deben generar dos tipos de interfaces:
a. interfaz buena: con datos permitidos por las reglas
b. interfaz mala: entregando datos buenos (la anterior), pero además, datos que contienen errores (por ejemplo datos nulos en columnas que no lo aceptan, datos fuera de rango, etc).
Se requiere una funcionalidad para generar datos y enmarscarar datos, para ello se debe seguir la siguiente secuencia:
Para la función "enmascarar" se debe abrir un archivo ya existente y enmascarar los datos según las reglas especificadas.
para la función "generar_datos" se deben inventar datos a partir de distintos dominios (números, textos, direcciones, nombres, etc). Se deben generar dos tipos de interfaces: a. interfaz buena: con datos permitidos por las reglas b. interfaz mala: entregando datos buenos (la anterior), pero además, datos que contienen errores (por ejemplo datos nulos en columnas que no lo aceptan, datos fuera de rango, etc).