Open JaTvoiRabotnik opened 7 years ago
Apesar de ser comum e previsível o problema, há uma legislação vigente (o Decreto 8777 citado na discussão geral) cujos primeiros efeitos já ocorrerão em maio deste ano no DOU (Diário Oficial da União)... Enfim, vale avaliar se podemos aguardar.
A ideia aqui no Projeto QueriDO seria trabalhar por demanda: se a curadoria que demanda um PDF específico, nos propomos ou não a solucionar o problema.
No Linux tem o comando pdftotext -raw
que em geral funciona bem... O problema como sempre é o resgate da estrutura, passando para HTML de fato (bolds, italicos, itens, etc.): tive sucesso apenas com ABBYY.
Sim, pode ser que não exista a necessidade de tratar o PDF da perspectiva da curadoria, mas pros meus objetivos (usar inteligência para extrair informação do diário oficial para torná-lo mais acessível), isso é imprescindível.
Ok. Vejamos no que difere o processo com PDF do processo com HTML:
quando o original já está em HTML, tudo o que fazemos é gravar na pasta html_original
(ver novos nomes na issue #23) com eventual processamento para garantia de UTF8.
quando o original está em PDF o jeito é armazenar esse original tal como está em outra pasta, digamos etc_original
para material cuja autoridade do Diário Oficial ou da separata (Câmara Municipal, Prefeitura, etc. também tem essa função) que não dispõe HTML... Então registramos nos metadados que a versão seguinte (postada na pasta html_original
) veio de nosso processamento, não é conversão oficial, é conversão nossa.
PS: o processamento pode evoluir, ou seja, se não houve intervenção humana (como no OCR) podemos reprocessar, caso contrário o "HTML originado por PDF" que gravamos em html_original
deve ser preservado, eventualmente versionado com novo nome de arquivo (damos preferência ao mais recente e fica o antigo de backup e respeito ao trabalho humano anteriormente realizado).
Seria isso?
Dar uma olhada na biblioteca https://github.com/euske/pdfminer pra converter de pdf pra texto.