HuemulSolutions / huemul-bigdatagovernance

Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, largos de textos, máximos/mínimos de números y fechas, valores únicos y valores por default. También permite clasificar los campos en aplicabilidad de derechos ARCO para facilitar la implementación de leyes de protección de datos tipo GDPR, identificar los niveles de seguridad y si se está aplicando algún tipo de encriptación. Adicionalmente permite agregar reglas de validación más complejas sobre la misma tabla.
Apache License 2.0
11 stars 7 forks source link

Integración con Hive Warehouse Connector #109

Closed ghost closed 4 years ago

ghost commented 4 years ago

En algunas versiones de Hortonworks, por ejemplo, 3.1.0, la metadata de Hive y Spark, están separadas. Además, cuando una grilla se seguriza con Kerberos y SSL, no se encuentra forma factible de conectarse a Hive desde Spark con jdbc. Esto, genera complicaciones al momento de usar Huemul, ya que el framework gestiona metadata de tablas y en esta versión de Hortonworks, el manejo es doble.

Por tanto, se requiere, ojalá, que Huemul soporte el conector Hortonworks Warehouse Connector (HWC)

huemulDeveloper commented 4 years ago

Para utilizar esta opción, se debe realizar lo siguiente:

  1. Habilitar en globalSettings la opción de conexión usando HWC
   Global.externalBBDD_conf.Using_HWC.setActive(true)
  1. Incluir driver y configuración de conexión en ejecución de spark-submit, el siguiente ejemplo grafica la forma de invocación
spark-submit ... --jars /usr/hdp/current/hive_warehouse_connector/hive-warehouse-connector-assembly-1.0.0.3.0.1.0-XX.jar  ... --conf "spark.sql.hive.hiveserver2.jdbc.url=jdbc:hive2://ambiente.hortonworks.com:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2;user=xxx;password=yyy"

donde XX es la versión específica del ambiente.

ghost commented 4 years ago

Testeado en mi ambiente y ok con las pruebas.