Closed miabrandao closed 3 years ago
@miabrandao os dados da coleta se encontram em:
/datalake/ufmg/webcrawlerc01/licitacoes_itamarati_2017 /datalake/ufmg/webcrawlerc01/licitacoes_itamarati_2018 /datalake/ufmg/webcrawlerc01/licitacoes_itamarati_2019 /datalake/ufmg/webcrawlerc01/licitacoes_itamarati_2020
Caso haja algum problema com a coleta, informe por meio dessa issue.
Comportamento Esperado
Requisição de nova coleta dos documentos e arquivos relacionados aos processos licitatórios do município de Itamarati de Minas/MG. É esperado que a coleta contenha os HTMLs das páginas coletadas e também os arquivos presentes no site, e que sejam armazenados nas pastas
data/raw_pages
edata/files
, respectivamente. Em especial, é importante que os arquivos file_description.jsonl estejam preenchidos, conforme detalhado na issue #479. Os processos licitatórios podem ser coletados a partir do ano de 2017.Comportamento Atual
Na coleta atual, não há arquivos relevantes coletados para a cidade Itamarati de Minas, além dos arquivos file_description.jsonl estarem vazios.
Localização
A coleta atual se encontra em
/files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/3351-licitacoes-itamarati.zip
Detalhes da fonte
Os processos licitatórios da cidade de Olaria são obtidos a partir de páginas específicas para cada ano, conforme lista a seguir: Na cidade de Itamarati de Minas, os processos licitatórios estão organizados em diferentes páginas e cada página possui várias licitações. Há uma divisão de páginas por ano: uma página para 2020, uma para 2019, etc:
Detalhes da trilha
Trilha: M03 Responsável: Michele A. Brandão Email: michele.brandao@dcc.ufmg.br
Screenshots e links (caso necessário)
O screenshot abaixo, da página http://itamaratideminas.mg.gov.br/licitacoes.html, mostra que há vários links na página e cada um deles possuem arquivos associados que devem ser coletados.