digital-guard / preserv

Digital Preservation Project
http://git.digital-guard.org/preserv
Apache License 2.0
0 stars 0 forks source link

Iniciar a normalização e comparação de nomes #96

Open ppKrauss opened 2 years ago

ppKrauss commented 2 years ago

Já estamos publicando os nomes de rua em CSV, por exemplo RJ/Niteroi/_pk0016.01/via/distrib_viaName_ghs.csv. Já possuimos a base dos Correios, o OSM e um algoritmo de controle terminológico para o PostgreSQL, o geoterm. É hora de implementar e começar a unificar, destacando falhas e publicando versões consolidadas de nomes.


No exemplo abaixo a "Travessa Nair Ladeira" que foi grafada como "Nair Madeira" no Geohash 75cmg. Há clara coincidência de geometria, é de fato uma inconsistência entre nomes. Pelas ruas vizinhas, de ambas as fontes (OSM e Prefeitura), percebe-se que o sobrenome Ladeira já estava em uso e confirmado (no mesmo Geohash "Albertina Ladeira"), então a provável falha é da Prefeitura, mas há que se confirmar com a base dos Correios ou, idealmente, legislação de batismo das vias.

image

fititnt commented 2 years ago

Em relação ao que comentei aqui https://github.com/digital-guard/preserv/issues/110#issuecomment-1139184453, para questão de alta granularidade (exemplo: ruas) são bem poucos países em que há P-Codes nesse nível.

A OCHA até tem isso, mas normalmente são lugares onde tem (ou teve nos ultimos 10 anos) uma resposta de emergência ativa então eles mesmos encodaram coisas como vilas ou códigos para hospitais e passaram a publicar as geometrias. Mas como esse tipo de situação é raro (e não tenho como prometer que daria para conseguir de forma padrão os shapefiles para comparar) creio que tudo que já não algo como município (as vezes bairro) equivalente entre países, vai envolver ter que ter padrão que não dependa de P-Codes.