interlegis / sapl

Sistema de Apoio ao Processo Legislativo
GNU General Public License v3.0
86 stars 81 forks source link

Avaliar outras libs para extração de texto de PDF para indexação #993

Closed edwardoliveira closed 7 years ago

edwardoliveira commented 7 years ago

Atualmente estamos usando o textract, mas essa lib é bem "gorda" (várias dependências que não precisamos) e tem um bug com PDFs sem extensão que dão pau no parsing. Seria interessante vermos a possibilidade de substituir por outra lib python pura que nos permita extrair o texto do PDF. Sugestões

/cc @eduardocalil @LeandroRoberto

eduardocalil commented 7 years ago

Obs: o textract não suporta arquivos do tipo .xml

eduardocalil commented 7 years ago

Isso abre uma discussão sobre os arquivos que estão no SAPL. Na migração foram encontrados arquivos em formatos que não fazem sentido para documentos, como por exemplo Normas com arquivos no formato .c