digital-guard / preserv

Digital Preservation Project
http://git.digital-guard.org/preserv
Apache License 2.0
0 stars 0 forks source link

Metodologia, não publicar sem conferir #110

Closed ppKrauss closed 2 years ago

ppKrauss commented 2 years ago

O teste faz parte da metodologia, conforme já comentado e documentado... Como nosso site e nossa documentação empacaram, aqui vai um reforço.

Teste simples

O QGIS é a nossa ferramenta produtiva interna, usar ele. Uma vez gerado o layer, visualizar rapidamente com o QGIS se foi tudo bem, um ou dois exemplares de GeoJSON, de preferencia escolhendo amostras grandes (ls -S).

Exemplos óbvios que jamais deveriam passar!!

Em BR-SP-Sorocaba, a qualquer GeoJSON de _pk0031.01/parcel o erro sistemático e evidente é a troca de nome de valor por nome de atributo: image

Nomes e numerações ausentes (null) precisam também ser investigados, e consistentes com o tipo de layer: vai ser erro se o tipo for final _full ou com join.

fititnt commented 2 years ago

(Semi off-topic, mas relevante).

Nessa questão de validação, algo que poderia ajudar humanos é ter padrões mais previsíveis, possivelmente que poderiam ser replicados facilmente nos demais países da https://github.com/digital-guard. A maioria disso já tem (em especial nomes de arquivos finais) porém parece que o caminho até eles ainda usa nomes dos locais.

Exemplo no Brasil

Um exemplo 100% numérico data/SP/SaoPaulo poderia ser data/35/3550308 ou ou mesmo data/3550308. Essa lógica usa Códigos do IBGE https://www.ibge.gov.br/explica/codigos-dos-municipios.php.

Exemplo nos demais países

É possível obter a lista de outros códigos como os do IBGE de outros países usando o padrão de P-Codes. Uma limitação deles é que eles só não vão oferecer códigos para algo como mesorregião ou microrregião no Brasil (em geral eles começam em todos os países a partir do equivalente de UF no Brasil).

Outras vantagens dessa abordagem

Essa abordagem mais estruturada (embora não precise ser feita tão logo) facilita muito, muito mesmo, automação, bem como até criar indexador (algo como https://developers.google.com/search/docs/advanced/structured-data/dataset). Posso ajudar isso mais na frente.

Não obstante, nada impede de o site para usuário ainda manter URLs amigáveis (que poderiam ser algo como acontece hoje com os arquivos). Mas o local que efetivamente guarda os arquivos pode ser mais relevante ter documentação gerada que explica as pastinhas do que ter nome legível.