okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 411 forks source link

[Manutenção] Novo raspador para Coruripe-AL #1317

Open LucasAlvws opened 3 weeks ago

LucasAlvws commented 3 weeks ago

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

Closes #1238

LucasAlvws commented 3 weeks ago

Uma coleta-teste por intervalo arbitrário al_coruripe_outubro2024.csv log_al_coruripe_outubro2024.log

LucasAlvws commented 3 weeks ago

Uma coleta-teste da última edição log_al_coruripe_last_edition.log al_coruripe_last_edition.csv

LucasAlvws commented 3 weeks ago

Rodei a consulta completa e houve alguns erros, mas não consegui entender exatamente o que são. Precisaria de uma ajuda para saber se posso resolve-los. al_coruripe.csv log_al_coruripe.log

trevineju commented 3 weeks ago

Boa, Lucas

Rodei a consulta completa e houve alguns erros, mas não consegui entender exatamente o que são. Precisaria de uma ajuda para saber se posso resolve-los.

Conferiu essa seção da documentação? https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#explorando-o-log

LucasAlvws commented 2 weeks ago

Olá, após verificar a documetação e fiz mais alguns testes e modificações, mas não consigo fazer o download dessas duas edições 2024-11-03 22:26:48 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://diario.coruripe.al.gov.br/diarios/732/download> (failed 3 times): 500 Internal Server Error 2024-11-03 22:26:48 [scrapy.core.engine] DEBUG: Crawled (500) <GET https://diario.coruripe.al.gov.br/diarios/732/download> (referer: None) 2024-11-03 22:26:48 [scrapy.pipelines.files] WARNING: File (code: 500): Error downloading file from <GET https://diario.coruripe.al.gov.br/diarios/732/download> referred in 2024-11-03 22:26:48 [scrapy.core.scraper] WARNING: Dropped: Validation failed! {'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}), 'date': '2024-07-04', 'edition_number': '727', 'file_urls': ['https://diario.coruripe.al.gov.br/diarios/732/download'], 'files': [], 'is_extra_edition': False, 'power': 'executive', 'scraped_at': '2024-11-04T01:22:19.541734Z', 'territory_id': ''}

2024-11-03 22:35:46 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://diario.coruripe.al.gov.br/diarios/128/download> (failed 3 times): 500 Internal Server Error 2024-11-03 22:35:46 [scrapy.core.engine] DEBUG: Crawled (500) <GET https://diario.coruripe.al.gov.br/diarios/128/download> (referer: None) 2024-11-03 22:35:46 [scrapy.pipelines.files] WARNING: File (code: 500): Error downloading file from <GET https://diario.coruripe.al.gov.br/diarios/128/download> referred in 2024-11-03 22:35:46 [scrapy.core.scraper] WARNING: Dropped: Validation failed! {'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}), 'date': '2022-05-02', 'edition_number': '124', 'file_urls': ['https://diario.coruripe.al.gov.br/diarios/128/download'], 'files': [], 'is_extra_edition': False, 'power': 'executive', 'scraped_at': '2024-11-04T01:29:37.820665Z', 'territory_id': ''}

mesmo tentando fazer o download na mão eu não estou conseguindo. Vocês conseguiriam testar os links para mim?

edição 124 128

edição 727 732