okfn-brasil / queriDO

nosso Querido Diário Oficial
https://okfn-brasil.github.io/queriDO/site
MIT License
18 stars 5 forks source link

Tratar PDFs #16

Open JaTvoiRabotnik opened 7 years ago

JaTvoiRabotnik commented 7 years ago

Dar uma olhada na biblioteca https://github.com/euske/pdfminer pra converter de pdf pra texto.

ppKrauss commented 7 years ago

Apesar de ser comum e previsível o problema, há uma legislação vigente (o Decreto 8777 citado na discussão geral) cujos primeiros efeitos já ocorrerão em maio deste ano no DOU (Diário Oficial da União)... Enfim, vale avaliar se podemos aguardar.

A ideia aqui no Projeto QueriDO seria trabalhar por demanda: se a curadoria que demanda um PDF específico, nos propomos ou não a solucionar o problema.

No Linux tem o comando pdftotext -raw que em geral funciona bem... O problema como sempre é o resgate da estrutura, passando para HTML de fato (bolds, italicos, itens, etc.): tive sucesso apenas com ABBYY.

JaTvoiRabotnik commented 7 years ago

Sim, pode ser que não exista a necessidade de tratar o PDF da perspectiva da curadoria, mas pros meus objetivos (usar inteligência para extrair informação do diário oficial para torná-lo mais acessível), isso é imprescindível.

ppKrauss commented 7 years ago

Ok. Vejamos no que difere o processo com PDF do processo com HTML:

PS: o processamento pode evoluir, ou seja, se não houve intervenção humana (como no OCR) podemos reprocessar, caso contrário o "HTML originado por PDF" que gravamos em html_original deve ser preservado, eventualmente versionado com novo nome de arquivo (damos preferência ao mais recente e fica o antigo de backup e respeito ao trabalho humano anteriormente realizado).


Seria isso?