MPMG-DCC-UFMG / C01

Coleta de Dados Públicos
GNU General Public License v3.0
18 stars 9 forks source link

[302-licitacoes-olaria] Inclusão da URL presente no evento onclick #478

Closed opgabriel closed 3 years ago

opgabriel commented 3 years ago

Comportamento Esperado

É esperado que as páginas HTML coletadas da cidade de Olaria contenham a URL presente no evento onclick para que seja possível associá-las aos arquivos PDF baixados.

Comportamento Atual

Na coleta da cidade de Olaria, não é possível identificar de qual elemento HTML foi coletado um arquivo .pdf específico. Isto acontece pois nos arquivos presentes na pasta raw_pages, os elementos HTML que deveriam conter a URL para o download dos arquivos PDF estão sem o atributo que conteria a URL.

Localização

/files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/302-licitacoes-olaria/data/raw_pages/

Detalhes da fonte

A URL para o download dos arquivos PDF está no atributo onclick (ver Seção de Screenshots)

Detalhes da trilha

Trilha: M03 Responsável: Gabriel Oliveira Email: gabrielpoliveira@dcc.ufmg.br

Screenshots e links

Em uma inspeção da página no navegador, é possível ver que o elemento HTML que contém o botão para o download do arquivo PDF contém o atributo onclick, como demonstrado abaixo:

image

Excerto retirado do arquivo da página http://www.olaria.mg.gov.br/1253-2/, carregada diretamente no navegador:

image

Contudo, no excerto correspondente, retirado do arquivo data/raw_pages/01416608fdf57aaba85348a99df0f4c9.html não é possível identificar a parte do elemento relacionada ao evento onclick:

image

rennancl commented 3 years ago

Olá @opgabriel, investiguei brevemente essa issue, e acredito que o problema está relacionado a data em que a coleta foi feita. Acredito que houve mudanças na fonte e agora essa informação é mostrada no HTML, enquanto na data da coleta, era oculta. Nesse caso, a solução seria refazer a coleta. Vou fechar essa issue por conta disso.

Você poderia abrir uma nova issue com a especificação dessa coleta? Incluindo a necessidade dessa informação nas páginas, por favor? Caso exista outro bug para a coleta, o responsável por ela deve documentar através de novas issues (e devem ser feitos para viabilizá-la)

opgabriel commented 3 years ago

Oi @rennancordeiro, obrigado pelo retorno! Acabei de abrir a nova issue com a requisição da nova coleta (#486).