okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

[Manutenção] Diversos municípios Siganet dando erro de DNS #1172

Closed trevineju closed 1 week ago

trevineju commented 2 weeks ago

Todos os municípios em produção que usam siganet estão quebrados em produção desde meados de maio/2024. Apontam o mesmo erro:

Afonso Cunha-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.afonsocunha.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.afonsocunha.ma.gov.br.

Axixá-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.axixa.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.axixa.ma.gov.br.

Boa Vista do Gurupi-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.boavistadogurupi.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.boavistadogurupi.ma.gov.br.

Centro do Guilherme-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.centrodoguilherme.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.centrodoguilherme.ma.gov.br.

Coroatá-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://coroata.ma.gov.br/diario/diario//listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: coroata.ma.gov.br.

Adicionalmente: // duplicado na URL

Maranhãozinho-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.maranhaozinho.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.maranhaozinho.ma.gov.br.

Nina Rodrigues-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.ninarodrigues.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.ninarodrigues.ma.gov.br.

São Vicente Ferrer-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://saovicenteferrer.ma.gov.br/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: saovicenteferrer.ma.gov.br.

Viana-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.viana.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.viana.ma.gov.br.

Zé Doca-MA:

[scrapy.downloadermiddlewares.retry] Gave up retrying <GET https://transparencia.zedoca.ma.gov.br/acessoInformacao/diario/diario/listarDiario > (failed 3 times): DNS lookup failed: no results for hostname lookup: transparencia.zedoca.ma.gov.br.

Todas as URLs hiperlinkadas acima existem e parecem conter diários recentes. É necessário investigar este comportamento.

trevineju commented 1 week ago

Não quis sair adicionando proxy em vários raspadores, por isso em #1177 experimentei apenas um, Afonso Cunha-MA, para verificar se essa solução funcionaria.

Funcionou: image requests_ma_afonso_cunha_491.json

Visto que funcionou, fico com a duvida agora se é melhor adicionar a habilitação do proxy no arquivo da classe base siganet, assim todos os 10 casos listados são beneficiados -- mas outros no futuro também, talvez sem precisar -- ou se é melhor adicionar só nos raspadores individuais e tratar caso a caso.

Como é um serviço pago e temos limite, sinto que a individualização é melhor. Mas ao mesmo tempo está afetando todos os casos siganet que temos (são 16 raspadores no repositório, mas só 10 ativos, por conta de #1034)

O que você acha, @ogecece?

ogecece commented 1 week ago

Melhor manter individual mesmo @trevineju :/ Dá um trabalhinho, mas é melhor não consumir recurso de proxy desnecessariamente

trevineju commented 1 week ago

@ogecece, beleza! obrigada