digital-guard / preserv

Digital Preservation Project
http://git.digital-guard.org/preserv
Apache License 2.0
0 stars 0 forks source link

Consolidação de Dados para publicação ESRI #157

Open IgorEliezer opened 9 months ago

IgorEliezer commented 9 months ago

Boa tarde,

Conforme conversado na última reunião técnica, precisamos gerar dados consolidados para que a ESRI possa disponibilizar nas suas plataformas e, eventualmente, no editor RapID para a comunidade.

Poderíamos focar nos municípios que tenham dados de qualidade e licenças melhores. @ThierryAJean também sugeriu algumas cidades.

Para a consolidação, haveria a correção do CASE dos textos e resolução das abreviaturas mais comuns (R., AV. etc).

1. Municípios candidatos (selected cities por pilot)

O que está feito? (What is done?)

2. Status

City License Proof Content
CE-Fortaleza CC0-1.0 arquivo eml quadra, edif, bairro, lote [end], via
PE-Recife Implied CC0 - genérica municipal (none, implied by law) bairro, lote [end], via
PI-Teresina Implied CC0 - genérica municipal (none, implied by law) geoaddress
PR-Curitiba Sem readme resolver issue!!! geoaddress, lote [end]
MG-Belo Horizonte CC0-1.0 zip da cópia de website, webarchive geoaddress, via
MG-Contagem CC0-1.0 zip (pdf de email e eml), arquivo eml quadra, geoaddress, bairro, lote [vazio], via
RJ-Rio de Janeiro sem licença (none, implied by law) block, geoaddress, bairro, lote [end], via, tabela de end.
RS-Porto Alegre CC0-1.0 zip da cópia de website, mas falta link webarchive geoaddress, bairro, via
SP-Jundiaí Implied CC0 - genérica municipal (nada; temos licença, falta aparecer no README) geoaddress, via, bairro, edif, lote [vazio]
SP-São Paulo Implied CC0 - SP, com base nas leis zip (pdfs de várias lei e parecer nosso inferindo CC0) lote [id], via, edif, quadra
Legenda (keys):
* edif: edificações.
* geoaddress: mapa de pontos de endereços.
* lote [end]:  lote com endereços.
* lote [id]: lote sem endereço, mas identificado por ID.
* lote [vazio]: lote sem dados relevantes.

3. O que precisa resolver (what needs to be addressed)

Do maior para o menor:

4. Contagem do consolidado (address count for consolidated data - done)

City Count
BR-CE-Fortaleza 374,580
BR-MG-BeloHorizonte 690,656
BR-MG-Contagem 94,572
BR-SP-Jundiai 105,006
TOTAL 1,264,814

Misc

Issue similar: #147

EDIT: Ver status dos pacotes e licenças https://github.com/digital-guard/preserv/issues/157#issuecomment-1811795552

ppKrauss commented 9 months ago

Sugiro consolidarmos apenas um, Contagem. Se necessário garantimos a entrega com correções manuais. Uma vez homologados os scripts, rodamos para os demais.

IgorEliezer commented 9 months ago

Amanhã teremos uma reunião com ESRI. Como estamos indo?

0e1 commented 9 months ago

Amanhã teremos uma reunião com ESRI. Como estamos indo?

O status atual é:

IgorEliezer commented 8 months ago

Post informativo e requer ação.

(por visibilidade e evitar dispersão, movido para o 1º post)


OFF-TOPIC:

Anotação das cidades sem licença (isso ganhará uma issue se precisar)

Brasil:

(BR terminado, falta outros países)

ThierryAJean commented 8 months ago

@IgorEliezer Para Rio de Janeiro, eu lembrava que era CC BY e está confirmado neste link: https://www.data.rio/datasets/n%C3%BAmero-de-porta-endere%C3%A7os/explore

image