okfn-brasil / querido-diario-comunidade

Querido Diário - Comunidade e Documentação
https://queridodiario.ok.org.br
MIT License
22 stars 19 forks source link

Caso: Sumiço de diários de Peritoró-MA #62

Closed trevineju closed 8 months ago

trevineju commented 1 year ago

CONTEXTO

Começamos a receber erros de raspagem para Peritóro-MA. O motivo é que o site publicador de diários mudou. Nesses casos, para preservar o histórico de diários, é comum que prefeituras mantenham os dois sites ou migre o conteúdo do site sendo abandonado para o novo. Entretanto, Peritoró-MA não o fez, apenas derrubou o site anterior, cessando o acesso à anos de diários oficiais do município.

Evidências: O site que o Querido Diário costumava coletar edições de diários era (a2202c5): https://www.peritoro.ma.gov.br/diario/ Esta URL redireciona para outro endereço que indica os diários agora estão sendo publicados em: https://dom.peritoro.ma.gov.br/

Neste novo endereço é possível ver (ao acessar a última página) que tem um diário de 2018, um de 2022 e aí passa para março/2023, e a publicação segue desta última data em diante. Onde estão as edições de 2018 até março/2023? Image

O Querido Diário tem as edições de 04-01-2021 até 04-04-2023 (trocar a ordenação para recentes/antigos para conferir o intervalo), coletadas no site anterior antes dele ser suspenso, sendo, aparentemente, o único local público onde estão esses diários.

AÇÃO SUGERIDA: Fazer um pedido de LAI para encaminhar a questão

robokbr commented 1 year ago
Traduzindo para inglês Translating to english

CONTEXT

We started getting scraping errors for Peritóro-MA. The reason is that the diary publishing site has changed. In these cases, to preserve the diary history, it is common for city halls to maintain both sites or migrate the content of the site being abandoned to the new one. However, Peritoró-MA did not do so, it just overthrew the previous site, ceasing access to years of the municipality's official journals.

Evidences: The site that Querido Diário used to collect diary issues was (a2202c5) : https://www.peritoro.ma.gov.br/diario/ This URL redirects to another address which indicates the diaries are now being published at: https://dom.peritoro.ma.gov. br/

In this new address it is possible to see (when accessing the last page) that there is a diary from 2018, one from 2022 and then it goes to March/2023, and the publication continues from this last date onwards. Where are the 2018 editions until March/2023? Image

Querido Diário has editions from 04-01-2021 to 04-04-2023 (change the order to recent/old to check the interval), collected on the previous site before it was suspended, being, apparently, the only public place where these diaries are.

SUGGESTED ACTION: Make a LAI request to escalate the issue

jedibruno commented 1 year ago

Dúvida: seria possível automatizar um registro dessas URLs que raspamos no Internet Archive?

robokbr commented 1 year ago
Traduzindo para inglês Translating to english

Doubt: would it be possible to automate a record of these URLs that we scrape in the Internet Archive?

trevineju commented 11 months ago

Automatizar eu não sei, @jedibruno :( Talvez o @turicas tenha alguma boa ideia sobre o assunto (recentemente, vi sua apresentação da CryptoRave sobre o projeto Graúna (https://grauna.org.br/) que participa. É como um Internet Archive para sites brasileiros selecionados por uma curadoria.

robokbr commented 11 months ago
Traduzindo para inglês Translating to english

I don't know about automating, @jedibruno :( Maybe @turicas has some good idea on the subject (I recently saw his CryptoRave presentation on the Graúna project (https://grauna.org.br/) which he participates in. It's like a Internet Archive for Brazilian sites selected by a curatorship.

turicas commented 11 months ago

@trevineju não sei se o Graúna conseguiria ajudar nesse caso em específico, dado que os sites arquivados são selecionados pela equipe do Nupef, mas achei legal a ideia de tentar arquivar automaticamente pelo Internet Archive, porém também não descartaria tentar usar a lei para acionar a prefeitura e conseguir o histórico de volta.

robokbr commented 11 months ago
Traduzindo para inglês Translating to english

@trevineju I don't know if Graúna would be able to help in this specific case, given that the archived sites are selected by the Nupef team, but I thought the idea of ​​trying to archive automatically through the Internet Archive was cool, but I also wouldn't rule out trying to use the law to trigger the city hall and get the history back.

trevineju commented 8 months ago

Peritoró passou a publicar em um novo site: http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e

que tem diários de 2017 até hoje.

robokbr commented 8 months ago
Traduzindo para inglês Translating to english

Peritoró started publishing on a new website: http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e

which has diaries from 2017 to today.