Open trevineju opened 1 month ago
@trevineju vou fazer essa revisão.
A princípio, todos rodaram corretamente, com exceção dos ma_pindare_mirim
e ma_vila_nova_dos_martirios
que deram erro apenas no scrapping do registro mais recente.
Tô dando uma debugada pra entender o que pode ser.
2024-09-25 14:08:05 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.vilanovadosmartirios.ma.gov.br/diariooficial.php?dtini=24/09/2024&dtfim=25/09/2024> (referer: None)
Traceback (most recent call last):
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/utils/defer.py", line 279, in iter_errback
yield next(it)
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/utils/python.py", line 350, in __next__
return next(self.data)
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/utils/python.py", line 350, in __next__
return next(self.data)
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/core/spidermw.py", line 106, in process_sync
for r in iterable:
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/spidermiddlewares/offsite.py", line 28, in <genexpr>
return (r for r in result or () if self._filter(r, spider))
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/core/spidermw.py", line 106, in process_sync
for r in iterable:
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/spidermiddlewares/referer.py", line 352, in <genexpr>
return (self._set_referer(r, response) for r in result or ())
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/core/spidermw.py", line 106, in process_sync
for r in iterable:
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/spidermiddlewares/urllength.py", line 27, in <genexpr>
return (r for r in result or () if self._filter(r, spider))
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/core/spidermw.py", line 106, in process_sync
for r in iterable:
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/spidermiddlewares/depth.py", line 31, in <genexpr>
return (r for r in result or () if self._filter(r, response, spider))
File "/Users/jusbrasil/.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/core/spidermw.py", line 106, in process_sync
for r in iterable:
File "/Users/jusbrasil/dev/open-source/querido-diario/data_collection/gazette/spiders/base/adiarios_v1.py", line 26, in parse_pagination
last_page_number = self.get_last_page_number(response)
File "/Users/jusbrasil/dev/open-source/querido-diario/data_collection/gazette/spiders/base/adiarios_v1.py", line 75, in get_last_page_number
last_page_index = max(page_numbers)
ValueError: max() arg is an empty sequence
ma_matoes_do_norte_complete.csv ma_matoes_do_norte_complete.log ma_matoes_do_norte_interval.csv ma_matoes_do_norte_interval.log ma_matoes_do_norte_yesterday.csv ma_matoes_do_norte_yesterday.log ma_paco_do_lumiar_complete.csv ma_paco_do_lumiar_complete.log ma_paco_do_lumiar_interval.csv ma_paco_do_lumiar_interval.log ma_paco_do_lumiar_yesterday.csv ma_paco_do_lumiar_yesterday.log ma_pedreiras_complete.csv ma_pedreiras_complete.log ma_pedreiras_interval.csv ma_pedreiras_interval.log ma_pedreiras_yesterday.csv ma_pedreiras_yesterday.log ma_pindare_mirim_complete.csv ma_pindare_mirim_complete.log ma_pindare_mirim_interval.csv ma_pindare_mirim_interval.log ma_pindare_mirim_yesterday.csv ma_pindare_mirim_yesterday.log ma_santa_luzia_do_parua_complete.csv ma_santa_luzia_do_parua_complete.log ma_santa_luzia_do_parua_interval.csv ma_santa_luzia_do_parua_interval.log ma_santa_luzia_do_parua_yesterday.csv ma_santa_luzia_do_parua_yesterday.log ma_trizidela_do_vale_complete.csv ma_trizidela_do_vale_complete.log ma_trizidela_do_vale_interval.csv ma_trizidela_do_vale_interval.log ma_trizidela_do_vale_yesterday.csv ma_trizidela_do_vale_yesterday.log ma_vargem_grande_complete.csv ma_vargem_grande_complete.log ma_vargem_grande_interval.csv ma_vargem_grande_interval.log ma_vargem_grande_yesterday.csv ma_vargem_grande_yesterday.log ma_vila_nova_dos_martirios_complete.csv ma_vila_nova_dos_martirios_complete.log ma_vila_nova_dos_martirios_interval.csv ma_vila_nova_dos_martirios_interval.log ma_vila_nova_dos_martirios_yesterday.csv ma_vila_nova_dos_martirios_yesterday.log
As spiders adicionadas nesta PR foram criadas com um script criador de código, por isso toda essa PR deve ser revisada em todos os detalhes e também ser testada.
Fica a cargo da pessoa revisora verificar a lista de validações para contribuições.