Closed opgabriel closed 3 years ago
Olá @opgabriel, investiguei brevemente essa issue, e acredito que o problema está relacionado a data em que a coleta foi feita. Acredito que houve mudanças na fonte e agora essa informação é mostrada no HTML, enquanto na data da coleta, era oculta. Nesse caso, a solução seria refazer a coleta. Vou fechar essa issue por conta disso.
Você poderia abrir uma nova issue com a especificação dessa coleta? Incluindo a necessidade dessa informação nas páginas, por favor? Caso exista outro bug para a coleta, o responsável por ela deve documentar através de novas issues (e devem ser feitos para viabilizá-la)
Oi @rennancordeiro, obrigado pelo retorno! Acabei de abrir a nova issue com a requisição da nova coleta (#486).
Comportamento Esperado
É esperado que as páginas HTML coletadas da cidade de Olaria contenham a URL presente no evento
onclick
para que seja possível associá-las aos arquivos PDF baixados.Comportamento Atual
Na coleta da cidade de Olaria, não é possível identificar de qual elemento HTML foi coletado um arquivo .pdf específico. Isto acontece pois nos arquivos presentes na pasta
raw_pages
, os elementos HTML que deveriam conter a URL para o download dos arquivos PDF estão sem o atributo que conteria a URL.Localização
/files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/302-licitacoes-olaria/data/raw_pages/
Detalhes da fonte
A URL para o download dos arquivos PDF está no atributo
onclick
(ver Seção de Screenshots)Detalhes da trilha
Trilha: M03 Responsável: Gabriel Oliveira Email: gabrielpoliveira@dcc.ufmg.br
Screenshots e links
Em uma inspeção da página no navegador, é possível ver que o elemento HTML que contém o botão para o download do arquivo PDF contém o atributo
onclick
, como demonstrado abaixo:Excerto retirado do arquivo da página http://www.olaria.mg.gov.br/1253-2/, carregada diretamente no navegador:
Contudo, no excerto correspondente, retirado do arquivo
data/raw_pages/01416608fdf57aaba85348a99df0f4c9.html
não é possível identificar a parte do elemento relacionada ao eventoonclick
: