MPMG-DCC-UFMG / C01

Coleta de Dados Públicos
GNU General Public License v3.0
18 stars 9 forks source link

Arquivo file_description.jsonl vazio #479

Closed miabrandao closed 3 years ago

miabrandao commented 3 years ago

Comportamento Esperado

É esperado que os arquivos file_description.jsonl estejam preenchidos nas pastas file e raw_pages para que seja facilitado o processamento dos arquivos e, consequentemente, a obtenção de informações.

Comportamento Atual

Há cidades com o arquivo file_description.jsonl vazio, por exemplo, a cidade Itamarati de Minas tem este arquivo vazio nas pastas file e raw_pages. Além disso, na pasta raw_pages tem cinco arquivos, mas todos com a mesma informação.

Localização

/datalake/ufmg/crawler/c04

Detalhes da fonte

Uma página com várias licitações. Divisão por anos: uma página para 2020, uma para 2019, etc: 2017: http://itamaratideminas.mg.gov.br/licitacoes.html 2018: http://itamaratideminas.mg.gov.br/licita--es-2018.html 2019: http://itamaratideminas.mg.gov.br/licitacao2019_1 2020: http://itamaratideminas.mg.gov.br/licitacao2020

Detalhes da trilha

Trilha: M03 Responsável: Michele A. Brandão Email: michele.brandao@dcc.ufmg.br

Screenshots e links (caso necessário)

A figura abaixo mostra o arquivo file_description.jsonl vazio:

img1

A figura abaixo mostra o conteúdo presente nos arquivos da pasta raw_pages, tem apenas o título:

img2

rennancl commented 3 years ago

Olá @miabrandao, a coleta feita (documentada nessa issue https://github.com/MPMG-DCC-UFMG/C01/issues/351) utilizava apenas a URL: http://itamaratideminas.mg.gov.br/licita--es.html. Nesse caso, acredito que não abrangeu de forma correta cada um dos anos e é um problema diretamente relacionado a fonte. Nesse caso a solução deveria ser refazer a coleta.

Você poderia abrir uma nova issue pedindo uma nova coleta para essa fonte, por favor, caso deseje os dados? Seria muito bom que documentasse cada ano e os detalhes da coleta desejados (incluindo o que ocorreu nessa issue)! Caso exista outro bug oculto relacionado ao file_descriptor, o processo de refazer a coleta deve torná-lo explícito.

miabrandao commented 3 years ago

Olá @rennancordeiro, boa tarde! Conforme solicitado, uma nova issue foi criada: https://github.com/MPMG-DCC-UFMG/C01/issues/489. Abs, Michele