okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.12k stars 411 forks source link

[Discussão] Novo padrão para nomear raspadores #1149

Open trevineju opened 6 months ago

trevineju commented 6 months ago

Atualmente temos adotado a seguinte lógica de nomear raspadores para municípios:

Isso...

  1. É chato de ficar dando manutenção, trocando o nome a depender da situação
  2. Não é unívoco. Pode ser que ano seja igual a outro ano caso o município tenha mudado duas vezes em pouco tempo.
  3. Com a sugestão de #1133 -- de passar a referenciar, nos registros de cada arquivo raspado no banco de dados, o raspador que o coletou -- a troca do nome perderia a referência. Ou adicionaria uma etapa extra de manutenção do banco, para trocar também o nome nos registros.

Assim, parece ser melhor adotarmos uma lógica de nomenclatura mais consistente.

A proposta inicial seria adotar uf_nome_do_municipio_<numero>. Usando numeração sequencial (1, 2, 3...) desde a primeira integração, sem deixar para trocar o nome quando um novo caso aparecer e abandonando o _ano.

Uma consequência é que pode ser que a numeração dos raspadores não seja equivalente a ordem histórica, por exemplo: O _1 coleta desde em 2020, aí o municipio migrou, então o _2 coleta desde 2024 e depois descobrimos um site mais antigo, por isso o _3 começa em 2000. O que permanence em produção é o _2.

Teriam outras ideias de padrão de nome para adotarmos para resolver a situação?

cc @ogecece @rennerocha

claromes commented 5 months ago

@trevineju Podemos seguir essa sugestão de número e usar uma tabela para controle, com identificador/raspador, data de criação, período de cobertura, fonte dos dados e status.

Um exemplo:

identificador data de criação período de cobertura fonte dos dados status
sp_sao_paulo_1 2020-01-15 2020 - presente www.exemplo.com.br/sp produção
sp_sao_paulo_2 2024-05-10 2024 - presente www.exemplo_novo.com.br produção
sp_sao_paulo_3 2023-02-20 2000 - 2019 www.exemplo_antigo.com.br desativado