okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

[Manutenção] Belo Horizonte - MG #1054

Closed trevineju closed 6 months ago

trevineju commented 7 months ago

O raspador para Belo Horizonte-MG não está mais coletando diários desde 11/10/23

log

Na Zyte, o mais recente (7/12/23) job de raspagem dessa cidade tem as seguintes informações:

Arguments start_date=2023-12-06 Start time 2023-12-07 22:41:55 UTC Finish time 2023-12-07 22:42:33 UTC Runtime half a minute Errors 2 errors Items 0 Log log_mg_belo_horizonte_660.txt Requests requests_mg_belo_horizonte_660.json

tarefa

É necessário fazer adaptações necessárias para que o código do raspador volte a funcionar.

Uma vez que a requisição no formato feito pelo raspador nas linhas 25 a 28 segue funcionando:

yield scrapy.Request(
                f"{base_url}?{urlencode(url_params)}",
                cb_kwargs={"gazette_date": date.date()},
            )

E prova disso são as requests válidas registradas no arquivo JSON anexado acima. O problema parece ser entre as linhas 37 e 40:

            gazette_hash = gazette["documento_jornal"]["nome_minio"]
            gazette_url = (
                f"https://api-dom.pbh.gov.br/api/v1/documentos/{gazette_hash}/download"
            )

para a obtenção do arquivo do diário.

SchiavonJP commented 6 months ago

Olá, Estou dando uma olhada e me parece que adicionaram um parametro na chamada 'prefix', que recebe uma string com a data do dia anterior ao do diário.

image

Vou fazer o ajuste aqui.

rennerocha commented 6 months ago

@SchiavonJP O prefix na maioria das vezes é a data anterior no formato YYYYMMDD, mas em algumas não. Porém, a API já retorna o valor de prefix a ser utilizado (ou None se não for necessário). Fiz essa modificação e agora o spider está funcionando 100%. Já iniciei um job a partir de setembro, só para garantir que vamos obter tudo que está faltando.

SchiavonJP commented 6 months ago

@rennerocha Aaaah, show de bola, não vi que o prefix estava no retorno. Valeu pela review!