xuxoramos / score-respuesta-inai

Evaluación de acceso a la información
0 stars 2 forks source link

Aplicar textract a PDFs contenidos en adjuntos en formato ZIP #21

Open xuxoramos opened 4 years ago

xuxoramos commented 4 years ago

NOTA IMPORTANTE: Este issue se da de alta durante el sprint del 18 de de Junio al 25 de Junio, pero no es para atenderse durante el mismo y forma parte del backlog.

Actualmente se están extrayendo los textos de los PDFs que vienen adjuntos en cada solicitud de información.

Sin embargo, existen adjuntos en formato ZIP cuyo contenido es 1 o varios archivos PDF.

Si la extracción y análisis de los archivos PDF sin comprimir no arroja resultados contundentes, se deberá abordar la extracción y análisis de los PDFs contenidos en los archivos ZIP de las solicitudes que contengan este tipo de adjunto.

En caso de que esto se ejecute, el resultado se deberá guardar al feature/columna "texto_pdf_adjunto", que es donde TAMBIÉN se están guardando los textos extraídos de los adjuntos PDF que no están comprimidos en ZIP.

EDIT (2020-07-02): Se considerará también extraer el texto usando textract local del ~50% restante de los PDFs cuyo texto no pudo ser extraído en la primera vuelta, finalizando en el sprint que acaba el 7 de Julio de 2020.