HuemulSolutions / huemul-bigdatagovernance

Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, largos de textos, máximos/mínimos de números y fechas, valores únicos y valores por default. También permite clasificar los campos en aplicabilidad de derechos ARCO para facilitar la implementación de leyes de protección de datos tipo GDPR, identificar los niveles de seguridad y si se está aplicando algún tipo de encriptación. Adicionalmente permite agregar reglas de validación más complejas sobre la misma tabla.
Apache License 2.0
11 stars 7 forks source link

Optimizar lectura de metadata HIVE #68

Closed sebasrod closed 5 years ago

sebasrod commented 5 years ago

Implementar mejora en lectura de metadata HIVE.

Dada la lentitud de Hive de entregar la metadata, se implementará una función que obtiene la metadata y la guarda en un archivo PARQUET en la ruta temporal, si la fecha de este archivo supera las 24 horas, entonces el proceso ejecutará automáticamente nuevamente el proceso.

sebasrod commented 5 years ago

Incluye nuevo parámetro HIVE_HourToUpdateMetadata en GlobalSettings,

Este parámetro tiene valor por default 0, lo que significa que no guarda los datos en cache temporal (parquet en ruta temporal).

Al asignar un valor > a 0 (por ejemplo 5), significa que guardará la información de metadata de Hive en cache en parquet, y durante esas 5 horas las leerá desde ahí en vez de rescatar desde Hive. Una vez que hayan pasado las 5 horas, la siguiente ejecución generará un refresh del caché, leyendo nuevamente la información desde Hive.

sebasrod commented 5 years ago

Para activar, se debe incluir el parámetro HIVE_HourToUpdateMetadata en globalSettings.

Ejemplo:

   HIVE_HourToUpdateMetadata = 2 //dos horas para mantener metadata de hive en cache.

Finalizado.