Requisição de nova coleta dos documentos e arquivos relacionados aos processos licitatórios do município de Olaria/MG. É esperado que a coleta contenha os HTML das páginas coletadas e os arquivos em si, como já existe hoje nos arquivos dos diretório data/raw_pages e data/files, respectivamente. Em especial, é importante que as páginas HTML coletadas da cidade de Olaria contenham a URL presente no evento onclick para que seja possível associá-las aos arquivos PDF baixados (conforme detalhado na issue #478).
Comportamento Atual
Na coleta atual, não é possível identificar de qual elemento HTML foi coletado um arquivo .pdf específico. Isto acontece pois nos arquivos presentes na pasta raw_pages, os elementos HTML que deveriam conter a URL para o download dos arquivos PDF estão sem o atributo que conteria a URL.
Localização
A coleta atual se encontra em /files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/302-licitacoes-olaria/
Detalhes da fonte
Os processos licitatórios da cidade de Olaria são obtidos a partir de páginas específicas para cada ano, conforme lista a seguir:
Trilha: M03
Responsável: Gabriel Oliveira
Email: gabrielpoliveira@dcc.ufmg.br
Screenshots e links (caso necessário)
Como exemplo, na página de licitações de 2020, é esperado que se colete todos os arquivos presentes nos campos DOWNLOAD DO EDITAL e DOWNLOAD - ANEXOS, conforme imagem a seguir:
Além disso, no HTML da página coletada, é necessário que seja coletado o link presente dentro do atributo onclick do botão de Download:
Comportamento Esperado
Requisição de nova coleta dos documentos e arquivos relacionados aos processos licitatórios do município de Olaria/MG. É esperado que a coleta contenha os HTML das páginas coletadas e os arquivos em si, como já existe hoje nos arquivos dos diretório
data/raw_pages
edata/files
, respectivamente. Em especial, é importante que as páginas HTML coletadas da cidade de Olaria contenham a URL presente no eventoonclick
para que seja possível associá-las aos arquivos PDF baixados (conforme detalhado na issue #478).Comportamento Atual
Na coleta atual, não é possível identificar de qual elemento HTML foi coletado um arquivo .pdf específico. Isto acontece pois nos arquivos presentes na pasta
raw_pages
, os elementos HTML que deveriam conter a URL para o download dos arquivos PDF estão sem o atributo que conteria a URL.Localização
A coleta atual se encontra em
/files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/302-licitacoes-olaria/
Detalhes da fonte
Os processos licitatórios da cidade de Olaria são obtidos a partir de páginas específicas para cada ano, conforme lista a seguir:
Detalhes da trilha
Trilha: M03 Responsável: Gabriel Oliveira Email: gabrielpoliveira@dcc.ufmg.br
Screenshots e links (caso necessário)
Como exemplo, na página de licitações de 2020, é esperado que se colete todos os arquivos presentes nos campos DOWNLOAD DO EDITAL e DOWNLOAD - ANEXOS, conforme imagem a seguir:
Além disso, no HTML da página coletada, é necessário que seja coletado o link presente dentro do atributo
onclick
do botão de Download:<a class="wpdm-download-link btn btn-primary " rel="nofollow" href="#" onclick="location.href='http://www.olaria.mg.gov.br/download/download-edital-123/?wpdmdl=1688';return false;" data-wahfont="11">Download</a>