Open trevineju opened 2 weeks ago
Olá, peguei esse pull request para testar antes da integração com o site do Querido Diário mas não conseguia rodar o raspador. Para todas as cidades, aparecia o erro:
ModuleNotFoundError: No module named 'gazette.spiders.base.atende_v2'
Fui investigar e não há nenhum arquivo chamado "atende_v2" dentro do caminho "gazette/spiders/base". O nome mais próximo é "atende_layoutdois" que possui uma classe chamada "BaseAtendeL2Spider" mas os raspadores estão herdando da classe "BaseAtendeV2Spider". Editei o arquivo dos raspadores para tentar usar a classe "BaseAtendeL2Spider" contida no "atende_layoutdois" e consegui iniciar a coleta dos pdfs. Estou avisando para o caso de mais alguém ter o mesmo problema.
boa, @marcospscruz! A branch estava desatualizada, de fato!
boa, @marcospscruz! A branch estava desatualizada, de fato!
Vou clonar o projeto novamente e refazer a coleta.
O raspador de Araucária dá erro e não faz o download de nenhum arquivo. Segue o log: log_pr_araucaria.txt
Em relação à Apucarana, seguem os logs e arquivos:
log_pr_apucarana_ultima_edicao.txt pr_apucarana_completa.csv log_pr_apucarana_completa.txt pr_apucarana_intervalo_maio_24.csv log_pr_apucarana_intervalo_maio_24.txt
Nos logs da coleta completa, consta um erro mas não consegui localizar o que seria. Aparecem alguns warnings de arquivo vazio mas ao acessar os links os arquivos realmente estavam vazios. Na coleta de intervalo arbitrário aparecem alguns erros de integridade do SQLite porque esses arquivos já haviam sido baixados na coleta completa.
Em relação a Campo Largo, seguem os logs e arquivos:
log_pr_campo_largo_ultima_edicao.txt pr_campo_largo_intervalo_maio_24.csv log_pr_campo_largo_intervalo_maio_24.txt pr_campo_largo_completa.csv log_pr_campo_largo_completa.txt
Em relação a Campo Mourão, seguem os logs e arquivos:
log_pr_campo_mourao_ultima_edicao.txt pr_campo_largo_intervalo_maio_24.csv log_pr_campo_mourao_intervalo_maio_24.txt pr_campo_mourao_completa.csv log_pr_campo_mourao_completa.txt
Em relação a Castro, seguem os logs e arquivos:
log_pr_castro_ultima_edicao.txt pr_castro_intervalo_maio_24.csv log_pr_castro_intervalo_maio_24.txt pr_castro_completa.csv log_pr_castro_completa.txt
Em relação a Clevelândia, seguem os logs e arquivos:
log_pr_clevelandia_ultima_edicao.txt pr_clevelandia_intervalo_maio_24.csv log_pr_clevelandia_intervalo_maio_24.txt pr_clevelandia_completa.csv log_pr_clevelandia_completa.txt
Em relação a Corbélia, seguem os logs e arquivos:
log_pr_corbelia_ultima_edicao.txt pr_corbelia_intervalo_maio_24.csv log_pr_corbelia_intervalo_maio_24.txt pr_corbelia_completa.csv log_pr_corbelia_completa.txt
Em relação a Guaraniaçu, seguem os logs e arquivos:
log_pr_guaraniacu_ultima_edicao.txt pr_guaraniacu_intervalo_maio_24.csv log_pr_guaraniacu_intervalo_maio_24.txt pr_guaraniacu_completa.csv log_pr_guaraniacu_completa.txt
Em relação a Mamborê, seguem os logs e arquivos:
log_pr_mambore_ultima_edicao.txt pr_mambore_intervalo_maio_24.csv log_pr_mambore_intervalo_maio_24.txt pr_mambore_completa.csv log_pr_mambore_completa.txt
Em relação a Ouro Verde do Oeste, seguem os logs e arquivos:
log_pr_ouro_verde_do_oeste_ultima_edicao.txt pr_ouro_verde_do_oeste_intervalo_maio_24.csv log_pr_ouro_verde_do_oeste_intervalo_maio_24.txt pr_ouro_verde_do_oeste_completa.csv log_pr_ouro_verde_do_oeste_completa.txt
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
<Descreva o seu Pull Request informando a issue (caso exista) que está sendo solucionada ou uma descrição do código apresentado>