okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.12k stars 411 forks source link

Adiciona novos 10 raspadores #1164

Closed trevineju closed 4 months ago

trevineju commented 5 months ago

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

Código da(s) spider(s)

Testes

Verificações

Descrição

Adiciona 10 municípios da lista de #1082

rochamatcomp commented 4 months ago

Mapa dos municípios

querido_diario_#1164

rochamatcomp commented 4 months ago

Aurora - CE: 2301703

Coleta última edição

coleta_ultima_edicao_ce_aurora.csv coleta_ultima_edicao_ce_aurora.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_aurora.csv coleta_intervalo_ce_aurora.log

Coleta completa

coleta_completa_ce_aurora.csv coleta_completa_ce_aurora.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

rochamatcomp commented 4 months ago

Canindé - CE: 2302800

Coleta última edição

coleta_ultima_edicao_ce_caninde.csv coleta_ultima_edicao_ce_caninde.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_caninde.csv coleta_intervalo_ce_caninde.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_caninde.csv coleta_completa_ce_caninde.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

rochamatcomp commented 4 months ago

Caririaçu - CE: 2303204

Coleta última edição

coleta_ultima_edicao_ce_caririacu.csv coleta_ultima_edicao_ce_caririacu.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_caririacu.csv coleta_intervalo_ce_caririacu.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_caririacu.csv coleta_completa_ce_caririacu.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

rochamatcomp commented 4 months ago

Cedro - CE: 2303808

Coleta última edição

coleta_ultima_edicao_ce_cedro.csv coleta_ultima_edicao_ce_cedro.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_cedro.csv coleta_intervalo_ce_cedro.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_cedro.csv coleta_completa_ce_cedro.log

log_count/ERROR: 1

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2020-11-27',
 'edition_number': '707',
 'file_urls': ['https://www.cedro.ce.gov.br/arquivos_download.php?id=916&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:43:13.102406Z',
 'territory_id': '2303808'}

O arquivo não é carregado no navegador nem pelo próprio site do município.

rochamatcomp commented 4 months ago

Coreaú - CE: 2304004

Apresenta apenas um diário: Diário Oficial: 01/2024 - Ano MMXXIV Edição Nº I de 3 de Maio de 2024 - EXECUTIVO.

Coleta última edição

coleta_ultima_edicao_ce_coreau.csv coleta_ultima_edicao_ce_coreau.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_coreau.csv coleta_intervalo_ce_coreau.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_coreau.csv coleta_completa_ce_coreau.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

rochamatcomp commented 4 months ago

Crateus - CE: 2304103

As edições são anuais, ou seja, existe o mesmo número de edição para anos diferentes.

Coleta última edição

coleta_ultima_edicao_ce_crateus.csv coleta_ultima_edicao_ce_crateus.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_crateus.csv coleta_intervalo_ce_crateus.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_crateus.csv coleta_completa_ce_crateus.log

'log_count/ERROR': 1

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2024-07-01',
 'edition_number': '118',
 'file_urls': ['https://www.crateus.ce.gov.br/arquivos_download.php?id=949&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:43:52.096763Z',
 'territory_id': '2304103'}

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2019-04-05',
 'edition_number': '027',
 'file_urls': ['https://www.crateus.ce.gov.br/arquivos_download.php?id=124&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:43:53.253307Z',
 'territory_id': '2304103'}

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2018-04-16',
 'edition_number': '026',
 'file_urls': ['https://www.crateus.ce.gov.br/arquivos_download.php?id=123&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:43:53.272787Z',
 'territory_id': '2304103'}

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2018-03-05',
 'edition_number': '015',
 'file_urls': ['https://www.crateus.ce.gov.br/arquivos_download.php?id=102&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:43:53.313111Z',
 'territory_id': '2304103'}

Os arquivos não são carregados no navegador nem pelo próprio site do município.

rochamatcomp commented 4 months ago

General Sampaio - CE: 2304608

Coleta última edição

coleta_ultima_edicao_ce_general_sampaio.csv coleta_ultima_edicao_ce_general_sampaio.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_general_sampaio.csv coleta_intervalo_ce_general_sampaio.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_general_sampaio.csv coleta_completa_ce_general_sampaio.log

'log_count/ERROR': 1

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2019-06-25',
 'edition_number': '356',
 'file_urls': ['https://www.generalsampaio.ce.gov.br/arquivos_download.php?id=382&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:44:57.698934Z',
 'territory_id': '2304608'}

O arquivo não é carregado no navegador nem pelo próprio site do município.

rochamatcomp commented 4 months ago

Hidrolândia - CE: 2305209

O diário mais antigo: 1146/2007 - Ano VII - Edição Nº MCXLVI de 9 de Abril de 2007 - EXECUTIVO O diário seguinte: 1/2013 - Ano I Edição Nº I de 10 de Julho de 2013 - EXECUTIVO

O ano VII corresponde a 2019 e não ao ano 2007. Em relação ao número 1146 não existe outro, somente o 1145 e 1147 em 2022.

Diário Oficial: 1147/2022 - Ano X - Edição Nº MCXLVII de 21 de Março de 2022 Diário Oficial: 1145/2022 - Ano X - Edição Nº MCXLV de 18 de Março de 2022

Portanto não existe problema.

Coleta última edição

coleta_ultima_edicao_ce_hidrolandia.csv coleta_ultima_edicao_ce_hidrolandia.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_hidrolandia.csv coleta_intervalo_ce_hidrolandia.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_hidrolandia.csv coleta_completa_ce_hidrolandia.log

'log_count/ERROR': 1

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2014-04-16',
 'edition_number': '31',
 'file_urls': ['https://www.hidrolandia.ce.gov.br/arquivos_download.php?id=30&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:47:10.387044Z',
 'territory_id': '2305209'}

O arquivo não é carregado no navegador nem pelo próprio site do município.

rochamatcomp commented 4 months ago

Itaitinga - CE: 2306256

Coleta última edição

coleta_ultima_edicao_ce_itaitinga.csv coleta_ultima_edicao_ce_itaitinga.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_itaitinga.csv coleta_intervalo_ce_itaitinga.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_itaitinga.csv coleta_completa_ce_itaitinga.log

'log_count/ERROR': 1

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2019-09-25',
 'edition_number': '199',
 'file_urls': ['https://www.itaitinga.ce.gov.br/arquivos_download.php?id=218&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:52:26.427792Z',
 'territory_id': '2306256'}

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2021-09-16',
 'edition_number': '498',
 'file_urls': ['https://www.itaitinga.ce.gov.br/arquivos_download.php?id=529&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:52:26.553670Z',
 'territory_id': '2306256'}

{'_validation': defaultdict(<class 'list'>, {'files': ['Field too short']}),
 'date': '2021-12-13',
 'edition_number': '552',
 'file_urls': ['https://www.itaitinga.ce.gov.br/arquivos_download.php?id=585&pg=diariooficial'],
 'files': [],
 'is_extra_edition': False,
 'power': 'executive',
 'scraped_at': '2024-07-04T13:53:30.737280Z',
 'territory_id': '2306256'}

Os arquivos não são carregados no navegador nem pelo próprio site do município.

rochamatcomp commented 4 months ago

Jaguaribe - CE: 2306900

Coleta última edição

coleta_ultima_edicao_ce_jaguaribe.csv coleta_ultima_edicao_ce_jaguaribe.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta intervalo

coleta_intervalo_ce_jaguaribe.csv coleta_intervalo_ce_jaguaribe.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

Coleta completa

coleta_completa_ce_jaguaribe.csv coleta_completa_ce_jaguaribe.log

Diários oficiais coletados corretamente. Arquivos auxiliares conferidos.

trevineju commented 4 months ago

obrigada pela validação, @rochamatcomp! parabéns pela primeira contribuição ao Querido Diário!