HuemulSolutions / huemul-bigdatagovernance

Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, largos de textos, máximos/mínimos de números y fechas, valores únicos y valores por default. También permite clasificar los campos en aplicabilidad de derechos ARCO para facilitar la implementación de leyes de protección de datos tipo GDPR, identificar los niveles de seguridad y si se está aplicando algún tipo de encriptación. Adicionalmente permite agregar reglas de validación más complejas sobre la misma tabla.
Apache License 2.0
11 stars 7 forks source link

Generar Archivo a partir de archivos RAW #86

Open sebasrod opened 4 years ago

sebasrod commented 4 years ago

Se requiere una funcionalidad para generar datos y enmarscarar datos, para ello se debe seguir la siguiente secuencia:

  1. Definir un archivo de entrada utilizando la clase huemul_DataLake.
  2. Definir para cada columna, las reglas de enmascarado y/o encriptación.

Para la función "enmascarar" se debe abrir un archivo ya existente y enmascarar los datos según las reglas especificadas.

para la función "generar_datos" se deben inventar datos a partir de distintos dominios (números, textos, direcciones, nombres, etc). Se deben generar dos tipos de interfaces: a. interfaz buena: con datos permitidos por las reglas b. interfaz mala: entregando datos buenos (la anterior), pero además, datos que contienen errores (por ejemplo datos nulos en columnas que no lo aceptan, datos fuera de rango, etc).