okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

Adiciona novos 10 raspadores do Paraná #1167

Open trevineju opened 2 weeks ago

trevineju commented 2 weeks ago

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

<Descreva o seu Pull Request informando a issue (caso exista) que está sendo solucionada ou uma descrição do código apresentado>

marcospscruz commented 2 weeks ago

Olá, peguei esse pull request para testar antes da integração com o site do Querido Diário mas não conseguia rodar o raspador. Para todas as cidades, aparecia o erro:

ModuleNotFoundError: No module named 'gazette.spiders.base.atende_v2'

Fui investigar e não há nenhum arquivo chamado "atende_v2" dentro do caminho "gazette/spiders/base". O nome mais próximo é "atende_layoutdois" que possui uma classe chamada "BaseAtendeL2Spider" mas os raspadores estão herdando da classe "BaseAtendeV2Spider". Editei o arquivo dos raspadores para tentar usar a classe "BaseAtendeL2Spider" contida no "atende_layoutdois" e consegui iniciar a coleta dos pdfs. Estou avisando para o caso de mais alguém ter o mesmo problema.

trevineju commented 2 weeks ago

boa, @marcospscruz! A branch estava desatualizada, de fato!

marcospscruz commented 2 weeks ago

boa, @marcospscruz! A branch estava desatualizada, de fato!

Vou clonar o projeto novamente e refazer a coleta.

marcospscruz commented 2 weeks ago

O raspador de Araucária dá erro e não faz o download de nenhum arquivo. Segue o log: log_pr_araucaria.txt

marcospscruz commented 2 weeks ago

Em relação à Apucarana, seguem os logs e arquivos:

log_pr_apucarana_ultima_edicao.txt pr_apucarana_completa.csv log_pr_apucarana_completa.txt pr_apucarana_intervalo_maio_24.csv log_pr_apucarana_intervalo_maio_24.txt

Nos logs da coleta completa, consta um erro mas não consegui localizar o que seria. Aparecem alguns warnings de arquivo vazio mas ao acessar os links os arquivos realmente estavam vazios. Na coleta de intervalo arbitrário aparecem alguns erros de integridade do SQLite porque esses arquivos já haviam sido baixados na coleta completa.

marcospscruz commented 2 weeks ago

Em relação a Campo Largo, seguem os logs e arquivos:

log_pr_campo_largo_ultima_edicao.txt pr_campo_largo_intervalo_maio_24.csv log_pr_campo_largo_intervalo_maio_24.txt pr_campo_largo_completa.csv log_pr_campo_largo_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Campo Mourão, seguem os logs e arquivos:

log_pr_campo_mourao_ultima_edicao.txt pr_campo_largo_intervalo_maio_24.csv log_pr_campo_mourao_intervalo_maio_24.txt pr_campo_mourao_completa.csv log_pr_campo_mourao_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Castro, seguem os logs e arquivos:

log_pr_castro_ultima_edicao.txt pr_castro_intervalo_maio_24.csv log_pr_castro_intervalo_maio_24.txt pr_castro_completa.csv log_pr_castro_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Clevelândia, seguem os logs e arquivos:

log_pr_clevelandia_ultima_edicao.txt pr_clevelandia_intervalo_maio_24.csv log_pr_clevelandia_intervalo_maio_24.txt pr_clevelandia_completa.csv log_pr_clevelandia_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Corbélia, seguem os logs e arquivos:

log_pr_corbelia_ultima_edicao.txt pr_corbelia_intervalo_maio_24.csv log_pr_corbelia_intervalo_maio_24.txt pr_corbelia_completa.csv log_pr_corbelia_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Guaraniaçu, seguem os logs e arquivos:

log_pr_guaraniacu_ultima_edicao.txt pr_guaraniacu_intervalo_maio_24.csv log_pr_guaraniacu_intervalo_maio_24.txt pr_guaraniacu_completa.csv log_pr_guaraniacu_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Mamborê, seguem os logs e arquivos:

log_pr_mambore_ultima_edicao.txt pr_mambore_intervalo_maio_24.csv log_pr_mambore_intervalo_maio_24.txt pr_mambore_completa.csv log_pr_mambore_completa.txt

marcospscruz commented 2 weeks ago

Em relação a Ouro Verde do Oeste, seguem os logs e arquivos:

log_pr_ouro_verde_do_oeste_ultima_edicao.txt pr_ouro_verde_do_oeste_intervalo_maio_24.csv log_pr_ouro_verde_do_oeste_intervalo_maio_24.txt pr_ouro_verde_do_oeste_completa.csv log_pr_ouro_verde_do_oeste_completa.txt