Closed edwardoliveira closed 7 years ago
Obs: o textract não suporta arquivos do tipo .xml
Isso abre uma discussão sobre os arquivos que estão no SAPL. Na migração foram encontrados arquivos em formatos que não fazem sentido para documentos, como por exemplo Normas com arquivos no formato .c
Atualmente estamos usando o
textract
, mas essa lib é bem "gorda" (várias dependências que não precisamos) e tem um bug com PDFs sem extensão que dão pau no parsing. Seria interessante vermos a possibilidade de substituir por outra lib python pura que nos permita extrair o texto do PDF. Sugestões/cc @eduardocalil @LeandroRoberto