Imprensa-Nacional / inlabs

O objetivo do INLABS é permitir o acesso aos arquivos das edições completas do Diário Oficial da União, em formato PDF e XML, que é livre e gratuito desde o dia 1º de janeiro de 2020.
https://inlabs.in.gov.br
40 stars 9 forks source link

Xml com problema #1

Closed ArthurMenezes closed 4 years ago

ArthurMenezes commented 4 years ago

Olá.

Observei um bug nos arquivos xml. Minhas observações estão baseadas no 2020-04-15-DO1.zip Ao processar a listagem dos arquivos xml, fiz um groupBy pelo numberPage e notei que a sequencia está furada. da página 22(515_20200415_12572023-2.xml) pula pra 24(515_20200415_12572023-3.xml). Ao perceber isso fui tentar entender onde se encontrava o conteúdo da página 23 e vi que está na página 22, o que é ruim, pois, não tenho garantia nenhuma de que processei um contéudo igual ao do pdf.

Iakim commented 4 years ago

Olá, bom dia! Estamos analisando seu comentário!

Iakim commented 4 years ago

Arthur, Analisando seu comentário, vi que os arquivos XML estão redirecionando para a página corretamente, o que acontece é o seguinte, os XML's não são dividos por páginas, se temos uma sequência de arquivos como foi demonstrada 515_20200415_12572023-1.xml 515_20200415_12572023-2.xml 515_20200415_12572023-3.xml... Isso não significa que a partes estão de acordo com as páginas, por exemplo, no seu caso demonstrado, o conteúdo da página 22 e 23 estão no arquivo 515_20200415_12572023-2.xml, o final do arquivo XML é a continuação da tabela que encerra no valor "161.986", que fica no meio da página do PDF, ou seja, a questão da numeração da página no XML direcionando para o PDF é de acordo com o início da matéria no XML, podendo estar até mesmo na última linha do PDF, e podendo também contemplar uma, duas, três, ou mais páginas. Vou deixar aberta a Issue por enquanto, aguardando seu comentário.

ArthurMenezes commented 4 years ago

Antes de qualquer coisa, obrigado pela resposta. Entendi. Eu achei estranho, pois ao agrupar os arquivos xml de um zip e fazer um sort pelo atributo numberPage, do article, obtive um valor inferior ao total de páginas do pdf. Então pra esclarecer, o atributo numberPage vai apontar pra página onde o ultimo elemento do artCategory está, é isso?

Iakim commented 4 years ago

Boa tarde! Sobre sua segunda dúvida a resposta é: Não! O atributo numberPage é o local onde se começa o conteúdo do XML. Veja o exemplo abaixo:

Eu posso ter uma matéria com o numerPage: 12 Onde o artCategory começando na pagina 1. E o final das matérias com o mesmo artCategory é só na página 30.

Entendeu?

Os atributos numberPage e artCategory não tem nenhuma relação entre eles, tanto que eu posso ter várias matérias com o mesmo atributo de numberPage, mas com vários artCategory's diferentes, e vice-versa.

Iakim commented 4 years ago

Qualquer dúvida pode mandar um e-mail para inlabs@in.gov.br.

Obrigado!