Add spider Jacobina Bahia

okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.

https://queridodiario.ok.org.br/

MIT License

1.1k stars 409 forks source link

Add spider Jacobina Bahia #436

Closed valessiobrito closed 2 years ago

valessiobrito commented 3 years ago

2019 - 2021 = https://www.jacobina.ba.gov.br/#diario-oficial

olds:

https://impublicacoes.org/cm_jacobina/
http://www.jacobina.ba.io.org.br/
http://portaldatransparencia.com.br/prefeitura/jacobina/
http://www.diariooficial.org.br/sitesMunicipios/contasPublicasCategoriaSitesExternos.cfm?varCodigo=415&cboAno=2007 (the latter seems to index many previous years)

valessiobrito commented 3 years ago

@giuliocc fiz o download de todas publicações em diferentes fontes; Aquelas que eram imagens, foram passadas por OCR; Também gerei uma versão alternativa em .txt .

Como/onde poderia fornecer esses dados para incorporar ao Querido Diário?

Temporariamente coloquei aqui: https://dados.manifestajacobina.com.br/s/DojcT4ZdAH53twG

valessiobrito commented 3 years ago

Lembrando que será necessário criar um spider somente para as publicações do site atual: https://www.jacobina.ba.gov.br/#diarios_2021_10_collapse

ogecece commented 3 years ago

Oi @valessiobrito ! Que massa!

Para integrar ao QD temos que passar pelo fluxo completo então teríamos que começar pelos raspadores e adequar qualquer necessidade que o projeto precise pra disponibilizar os dados lá na plataforma. Então se tivermos dificuldade em lidar com imagens, por exemplo, isso teria que entrar no fluxo de processamento do projeto, entende? Como tu queres prosseguir?

English

Hi @valessiobrito ! That's so nice!

To integrate it into QD it would have to go through the entire flow so we would need to start by the spiders and then adjust any needs of the project to correctly display the data in the plataform. So if we have any difficulties in dealing with images, for example, it would have to enter the processing flow of the project, get it? How do you prefer to proceed?

valessiobrito commented 3 years ago

@giuliocc thanks for reply. Unfortunately I didn't try to make the spiders. I did a recursive wget (bash scripts).

giu, obrigado pela resposta. Infelizmente não tentei fazer os raspadores. Eu fiz um wget recursivo (script bash).

valessiobrito commented 3 years ago

I have a proposal/question on when the data doesn't have a website source, because they were deactivated/archived... or documents scanned locally.

Eu tenho uma proposta/questão sobre quando os dados não tem um site de origem, porque os mesmos foram desativados/arquivados... ou são documentos digitalizados localmente.