Convertir csv a parquet

xuxoramos / movicovid

MOVICOVID: Análisis de movilidad por SocialTIC y la Sociedat para la caracterización de población en movimiento durante la jornada de #SusanaDistancia.

MIT License

0 stars 2 forks source link

Convertir csv a parquet #6

Closed Fridagc closed 4 years ago

Fridagc commented 4 years ago

Una vez que Frida comparta csv de datos de movilidad, convertir a parquet para hacer lectura más rápida

elozadaj commented 4 years ago

La conversión de csv a parquet se pude realizar de dos formas:

1) Con ayuda de AWS Glue: cada que se suba un archivo csv, un evento sería disparado de forma automática. Una función AWS Lambda se encargaría de ejecutar un script para crear el archivo parquet y guardarlo en el bucket. Se necesitarían cambiar permisos de mi cuenta en aws para poder configurar todos los servicios.

2) De forma manual: cada que se suba un archivo csv, alguien tendría que bajar dicho archivo, correr un script, obtener el archivo parquet y finalmente subir ese nuevo archivo al bucket de aws.

@xuxoramos / @Fridagc cuál opción tomamos?

Fridagc commented 4 years ago

@elozadaj A mi me parece más conveniente la primera opción, tendríamos que ver lo de tus permisos con @xuxoramos

xuxoramos commented 4 years ago

Adelante con AWS Glue + AWS Lambda
@Fridagc va a subir el MISMO ARCHIVO cada semana SIN RECORTAR y SIN VERSIONAR
@elozadaj va a hacer un proceso con Glue y Lambda para recortar archivo y agregarlo al dataset concentrado en parquet

elozadaj commented 4 years ago

AWS Glue + AWS Lambda podrían no ser la opción por costos.

Se han hecho 2 estimaciones para evaluar la viabilidad.

xuxoramos commented 4 years ago

@elozadaj pondrá aquí memoria técnica de sus averiguaciones para controles de costos y eficientar proceso.

Se determina que no habár normalización.

elozadaj commented 4 years ago

Documento con guía para implementar el proceso de automatización de datos: https://docs.google.com/document/d/1YNWAv2DeOHJzJP2kOXknLENPQC5zbWJGfj8ok7Jy2oA/edit#

elozadaj commented 4 years ago

El timeout en la configuración de la función en AWS Lambda (para la transformación de datos de csv a parquet) se ha incrementado a 1 minuto máximo.

Se estima que es un tiempo suficiente ya que para un archivo de 5.5 MB (conteniendo los datos de 7 días) la función se ejecutó en 7 segundos.

xuxoramos commented 4 years ago

Se reabrirá si en la prueba de carga de archivo del 2020-14-07 hay algún error.