MPMG-DCC-UFMG / C01

Coleta de Dados Públicos
GNU General Public License v3.0
18 stars 9 forks source link

Erro código 1006 ao coletar algumas páginas #696

Closed caiocvsilva closed 2 years ago

caiocvsilva commented 3 years ago

Comportamento Esperado

Realizar as coletas sem erro algum.

Comportamento Atual

As coletas apresentam o erro code = 1006. Na maioria das vezes este erro não impede o funcionamento do coletor. Segue log exemplo para este problema:

2021-08-03 19:55:04 [websockets.protocol] DEBUG: client - event = eof_received() 2021-08-03 19:55:04 [websockets.protocol] DEBUG: client ! failing CLOSING WebSocket connection with code 1006 2021-08-03 19:55:04 [websockets.protocol] DEBUG: client - event = connection_lost(None) 2021-08-03 19:55:04 [websockets.protocol] DEBUG: client - state = CLOSED 2021-08-03 19:55:04 [websockets.protocol] DEBUG: client x code = 1006, reason = [no reason] 2021-08-03 19:55:04 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {'elapsed_time_seconds': 0.0047, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2021, 8, 3, 19, 54, 57, 215496), 'log_count/DEBUG': 116, 'log_count/ERROR': 1, 'log_count/INFO': 10, 'log_count/WARNING': 3, 'memusage/max': 302215168, 'memusage/startup': 302215168, 'start_time': datetime.datetime(2021, 8, 3, 19, 54, 57, 210796)} 2021-08-03 19:55:04 [scrapy.core.engine] INFO: Spider closed (finished)

Passos para reproduzir o erro

Para recriar o problema, basta criar um coletor para a fonte "http://www.congonhas.mg.gov.br/index.php/licitacao-publica-prefeitura/", com um passo dinâmico de espera e um de salvar página.

Pode ter alguma relação com o seguinte problema: https://github.com/miyakogi/pyppeteer/issues/62

caiocvsilva commented 3 years ago

O erro pode estar sendo causado pelo uso do page.on(), conforme esta issue: https://github.com/pyppeteer/pyppeteer/issues/83#issuecomment-615393170

lucasaug commented 3 years ago

O site https://www.ssllabs.com/ssltest/analyze.html pode ser utilizado para executar um teste do certificado SSL utilizado pela página. Utilizando esse site para testar a página de Congonhas, é indicado que a cadeia de certificados está incompleta. Isso pode ter relação com o problema, já que aparentemente ele é causado por erros no certificado (isso é indicado ao investigar os erros do Pyppeteer).

rennancl commented 3 years ago

Hey team! Please add your planning poker estimate with ZenHub @caiocvsilva @elvesrodrigues @matheusfebarbosa

louisaturn commented 2 years ago

Olá, pessoal! Favor conferir se esse erro ocorre no Playwright. Se sim, atualizamos. Se não, podemos fechá-la :)

lucasaug commented 2 years ago

Testei na branch distributed-system (onde está a implementação do Playwright) e a coleta é feita sem reportar nenhum erro no log. Executei a coleta novamente, e de novo tudo funcionou corretamente. Na master (com Pyppeteer) consegui reproduzir o erro. Nesse caso podemos fechar a issue?

lucasaug commented 2 years ago

Fechando pois não consegui reproduzir na implementação com Playwright.