Closed ArthurMenezes closed 4 years ago
Olá, bom dia! Estamos analisando seu comentário!
Arthur, Analisando seu comentário, vi que os arquivos XML estão redirecionando para a página corretamente, o que acontece é o seguinte, os XML's não são dividos por páginas, se temos uma sequência de arquivos como foi demonstrada 515_20200415_12572023-1.xml 515_20200415_12572023-2.xml 515_20200415_12572023-3.xml... Isso não significa que a partes estão de acordo com as páginas, por exemplo, no seu caso demonstrado, o conteúdo da página 22 e 23 estão no arquivo 515_20200415_12572023-2.xml, o final do arquivo XML é a continuação da tabela que encerra no valor "161.986", que fica no meio da página do PDF, ou seja, a questão da numeração da página no XML direcionando para o PDF é de acordo com o início da matéria no XML, podendo estar até mesmo na última linha do PDF, e podendo também contemplar uma, duas, três, ou mais páginas. Vou deixar aberta a Issue por enquanto, aguardando seu comentário.
Antes de qualquer coisa, obrigado pela resposta. Entendi. Eu achei estranho, pois ao agrupar os arquivos xml de um zip e fazer um sort pelo atributo numberPage, do article, obtive um valor inferior ao total de páginas do pdf. Então pra esclarecer, o atributo numberPage vai apontar pra página onde o ultimo elemento do artCategory está, é isso?
Boa tarde! Sobre sua segunda dúvida a resposta é: Não! O atributo numberPage é o local onde se começa o conteúdo do XML. Veja o exemplo abaixo:
Eu posso ter uma matéria com o numerPage: 12 Onde o artCategory começando na pagina 1. E o final das matérias com o mesmo artCategory é só na página 30.
Entendeu?
Os atributos numberPage e artCategory não tem nenhuma relação entre eles, tanto que eu posso ter várias matérias com o mesmo atributo de numberPage, mas com vários artCategory's diferentes, e vice-versa.
Qualquer dúvida pode mandar um e-mail para inlabs@in.gov.br.
Obrigado!
Olá.
Observei um bug nos arquivos xml. Minhas observações estão baseadas no 2020-04-15-DO1.zip Ao processar a listagem dos arquivos xml, fiz um groupBy pelo numberPage e notei que a sequencia está furada. da página 22(515_20200415_12572023-2.xml) pula pra 24(515_20200415_12572023-3.xml). Ao perceber isso fui tentar entender onde se encontrava o conteúdo da página 23 e vi que está na página 22, o que é ruim, pois, não tenho garantia nenhuma de que processei um contéudo igual ao do pdf.