MPMG-DCC-UFMG / C01

Coleta de Dados Públicos
GNU General Public License v3.0
18 stars 9 forks source link

Coleta de dados das licitações do portal de transparência de Ijaci #677

Closed iagoadvaz closed 2 years ago

iagoadvaz commented 3 years ago

Comportamento Esperado

Requisição de nova coleta dos documentos e arquivos relacionados aos processos licitatórios do município de Ijaci/MG. É esperado que a coleta contenha os HTML das páginas coletadas e os arquivos em si, como já existe hoje nos arquivos dos diretório data/raw_pages e data/files, respectivamente. Em especial, é importante que as páginas HTML coletadas da cidade de Ijaci contenham a URL presente no evento onclick para que seja possível associá-las aos arquivos PDF baixados (conforme detalhado na issue #478).

Comportamento Atual

Na coleta atual, não é possível identificar de qual elemento HTML foi coletado um arquivo .pdf específico. Isto acontece pois nos arquivos presentes na pasta raw_pages, os elementos HTML que deveriam conter a URL para o download dos arquivos PDF estão sem o atributo que conteria a URL.

Localização

A coleta atual se encontra em /files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01//353-licitacoes-ijaci.7z

Detalhes da fonte

Os processos licitatórios da cidade de Ijaci são obtidos a partir da página a seguir: http://ijacimg.web21f14.uni5.net/licitacao/cont_pag8.asp

Detalhes da trilha

Os dados aqui solicitados são de interesse da trilha M03, sob coordenação de Iago Domingues (iagoadvaz@gmail.com).

Screenshots e links (caso necessário)

Os screenshots a seguir mostram como acessar as informações de interesse da página:

  1. Selecionar o ano de exercício do Processo Licitatório. O processo deve ser repetido para todos os anos disponíveis (2017-2021) image

  2. Fazer o download de todos os documentos listados na página. image

caiocvsilva commented 2 years ago

@iagoadvaz , esta coleta foi realizada e os dados se encontram em /datalake/ufmg/webcrawlerc01/Ijaci/licitacoes/data/. Favor averiguar o conteúdo. Caso haja algum problema, favor abrir uma issue.