Open trevineju opened 6 months ago
@trevineju Podemos seguir essa sugestão de número e usar uma tabela para controle, com identificador/raspador, data de criação, período de cobertura, fonte dos dados e status.
Um exemplo:
identificador | data de criação | período de cobertura | fonte dos dados | status |
---|---|---|---|---|
sp_sao_paulo_1 | 2020-01-15 | 2020 - presente | www.exemplo.com.br/sp | produção |
sp_sao_paulo_2 | 2024-05-10 | 2024 - presente | www.exemplo_novo.com.br | produção |
sp_sao_paulo_3 | 2023-02-20 | 2000 - 2019 | www.exemplo_antigo.com.br | desativado |
Atualmente temos adotado a seguinte lógica de nomear raspadores para municípios:
uf_nome_do_municipio
uf_nome_do_municipio
parauf_nome_do_municipio_<ano>
uf_nome_do_municipio_<outro ano>
Isso...
ano
seja igual aoutro ano
caso o município tenha mudado duas vezes em pouco tempo.Assim, parece ser melhor adotarmos uma lógica de nomenclatura mais consistente.
A proposta inicial seria adotar
uf_nome_do_municipio_<numero>
. Usando numeração sequencial (1, 2, 3...) desde a primeira integração, sem deixar para trocar o nome quando um novo caso aparecer e abandonando o_ano
.Uma consequência é que pode ser que a numeração dos raspadores não seja equivalente a ordem histórica, por exemplo: O
_1
coleta desde em 2020, aí o municipio migrou, então o_2
coleta desde 2024 e depois descobrimos um site mais antigo, por isso o_3
começa em 2000. O que permanence em produção é o_2
.Teriam outras ideias de padrão de nome para adotarmos para resolver a situação?
cc @ogecece @rennerocha