MPMG-DCC-UFMG / C01

Coleta de Dados Públicos
GNU General Public License v3.0
18 stars 9 forks source link

Nova coleta de documentos de licitações do município de Olaria/MG #486

Open opgabriel opened 3 years ago

opgabriel commented 3 years ago

Comportamento Esperado

Requisição de nova coleta dos documentos e arquivos relacionados aos processos licitatórios do município de Olaria/MG. É esperado que a coleta contenha os HTML das páginas coletadas e os arquivos em si, como já existe hoje nos arquivos dos diretório data/raw_pages e data/files, respectivamente. Em especial, é importante que as páginas HTML coletadas da cidade de Olaria contenham a URL presente no evento onclick para que seja possível associá-las aos arquivos PDF baixados (conforme detalhado na issue #478).

Comportamento Atual

Na coleta atual, não é possível identificar de qual elemento HTML foi coletado um arquivo .pdf específico. Isto acontece pois nos arquivos presentes na pasta raw_pages, os elementos HTML que deveriam conter a URL para o download dos arquivos PDF estão sem o atributo que conteria a URL.

Localização

A coleta atual se encontra em /files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/302-licitacoes-olaria/

Detalhes da fonte

Os processos licitatórios da cidade de Olaria são obtidos a partir de páginas específicas para cada ano, conforme lista a seguir:

Detalhes da trilha

Trilha: M03 Responsável: Gabriel Oliveira Email: gabrielpoliveira@dcc.ufmg.br

Screenshots e links (caso necessário)

Como exemplo, na página de licitações de 2020, é esperado que se colete todos os arquivos presentes nos campos DOWNLOAD DO EDITAL e DOWNLOAD - ANEXOS, conforme imagem a seguir:

image

Além disso, no HTML da página coletada, é necessário que seja coletado o link presente dentro do atributo onclick do botão de Download:

<a class="wpdm-download-link btn btn-primary " rel="nofollow" href="#" onclick="location.href='http://www.olaria.mg.gov.br/download/download-edital-123/?wpdmdl=1688';return false;" data-wahfont="11">Download</a>

brenomatos commented 3 years ago

Bug descrito em #527