Closed miabrandao closed 3 years ago
Olá @miabrandao, a coleta feita (documentada nessa issue https://github.com/MPMG-DCC-UFMG/C01/issues/351) utilizava apenas a URL: http://itamaratideminas.mg.gov.br/licita--es.html. Nesse caso, acredito que não abrangeu de forma correta cada um dos anos e é um problema diretamente relacionado a fonte. Nesse caso a solução deveria ser refazer a coleta.
Você poderia abrir uma nova issue pedindo uma nova coleta para essa fonte, por favor, caso deseje os dados? Seria muito bom que documentasse cada ano e os detalhes da coleta desejados (incluindo o que ocorreu nessa issue)! Caso exista outro bug oculto relacionado ao file_descriptor, o processo de refazer a coleta deve torná-lo explícito.
Olá @rennancordeiro, boa tarde! Conforme solicitado, uma nova issue foi criada: https://github.com/MPMG-DCC-UFMG/C01/issues/489. Abs, Michele
Comportamento Esperado
É esperado que os arquivos file_description.jsonl estejam preenchidos nas pastas file e raw_pages para que seja facilitado o processamento dos arquivos e, consequentemente, a obtenção de informações.
Comportamento Atual
Há cidades com o arquivo file_description.jsonl vazio, por exemplo, a cidade Itamarati de Minas tem este arquivo vazio nas pastas file e raw_pages. Além disso, na pasta raw_pages tem cinco arquivos, mas todos com a mesma informação.
Localização
/datalake/ufmg/crawler/c04
Detalhes da fonte
Uma página com várias licitações. Divisão por anos: uma página para 2020, uma para 2019, etc: 2017: http://itamaratideminas.mg.gov.br/licitacoes.html 2018: http://itamaratideminas.mg.gov.br/licita--es-2018.html 2019: http://itamaratideminas.mg.gov.br/licitacao2019_1 2020: http://itamaratideminas.mg.gov.br/licitacao2020
Detalhes da trilha
Trilha: M03 Responsável: Michele A. Brandão Email: michele.brandao@dcc.ufmg.br
Screenshots e links (caso necessário)
A figura abaixo mostra o arquivo file_description.jsonl vazio:
A figura abaixo mostra o conteúdo presente nos arquivos da pasta raw_pages, tem apenas o título: