Closed Fridagc closed 4 years ago
La conversión de csv a parquet se pude realizar de dos formas:
1) Con ayuda de AWS Glue: cada que se suba un archivo csv, un evento sería disparado de forma automática. Una función AWS Lambda se encargaría de ejecutar un script para crear el archivo parquet y guardarlo en el bucket. Se necesitarían cambiar permisos de mi cuenta en aws para poder configurar todos los servicios.
Ejemplo: https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/
Info acerca de AWS Glue: https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
2) De forma manual: cada que se suba un archivo csv, alguien tendría que bajar dicho archivo, correr un script, obtener el archivo parquet y finalmente subir ese nuevo archivo al bucket de aws.
@xuxoramos / @Fridagc cuál opción tomamos?
@elozadaj A mi me parece más conveniente la primera opción, tendríamos que ver lo de tus permisos con @xuxoramos
AWS Glue + AWS Lambda podrían no ser la opción por costos.
Se han hecho 2 estimaciones para evaluar la viabilidad.
@elozadaj pondrá aquí memoria técnica de sus averiguaciones para controles de costos y eficientar proceso.
Se determina que no habár normalización.
Documento con guía para implementar el proceso de automatización de datos: https://docs.google.com/document/d/1YNWAv2DeOHJzJP2kOXknLENPQC5zbWJGfj8ok7Jy2oA/edit#
El timeout en la configuración de la función en AWS Lambda (para la transformación de datos de csv a parquet) se ha incrementado a 1 minuto máximo.
Se estima que es un tiempo suficiente ya que para un archivo de 5.5 MB (conteniendo los datos de 7 días) la función se ejecutó en 7 segundos.
Se reabrirá si en la prueba de carga de archivo del 2020-14-07 hay algún error.
Una vez que Frida comparta csv de datos de movilidad, convertir a parquet para hacer lectura más rápida