digital-guard / preserv-BR

Digital Preservation of Brazilian metadata of donated maps.
http://git.digital-guard.org/preserv-BR
3 stars 1 forks source link

Discussão sobre lexicografia humanitária com a digital-guard e HXL-CPLP #12

Closed fititnt closed 2 years ago

fititnt commented 3 years ago

Olá pessoal. Eu, Emerson Rocha, falo aqui em nome do @HXL-CPLP.

Meu ponto aqui com pessoal da @digital-guard, em especial @ppKrauss @crebollobr @0e1: vocês teriam disposição para uma reunião rápida? Podem pegar meu e-mail no contato do GitHub.

Justificativa rapida

Nós do HXL-CPLP já estamos fazendo "Um Pedido de Comentários: Lista de desejos de lexicografia humanitária" (https://docs.google.com/document/d/12_93IgYJ0LFeedfiZtZXrDe_xjD_tfmkAEuAMadELSA/edit#heading=h.8qt4sonm0exr) direcionado ao pessoal da comunidade internacional que já atua no meio humanitário (existe slack e grupos de Skype com pessoal da ONU, cruz vermelha, etc, etc etc) e somente em dezembro devemos ter o resultado. Porém já tem rascunho, por exemplo em https://docs.google.com/spreadsheets/d/1ysjiu_noghR1i9u0FWa3jSpk8kBq9Ezp95mqPLD9obE/edit#gid=1099445463. Parte desse rascunho é voltado especificamente ao Brasil, porém o @digital-guard até cita outros países, inclusive alguns que provavelmente nem tem P-Codes mais detalhados.

Um dos maiores interesses nessa reunião com vocês é que eventualmente a gente vai ter uma ideia melhor de trabalhos que estão com maior chance de serem a referência para endosso em uso humaniário. E o tipo de informação que vocês lidam aqui, de relacionar localização com geometrias e metadados é até um tipo especial de conjuntos de dados, os chamados Common Operational Datasets (https://en.wikipedia.org/wiki/Common_Operational_Datasets). Porém no meio humanitário, usa-se algo chamado P-code, que funciona como código global de localização. E todas as informações relacionadas, idealmente, deveriam ou ser já publicadas com P-Code, ou existir toda uma preparação (talvez scripts? sugestões são bem vindas!) onde seria possível transformar outros dados locais para uso com P-Codes.

Essa discussão por texto poderia ficar bem longa, mas meu ponto aqui, é que fica meu convite para conversarmos a respeito. Como vocês já estão voltados na preservação de dados e estão preocupados também com dados abertos, em especial domínio público, tenho certeza que para fins humanitários, teriam ainda mais interesse.

fititnt commented 3 years ago

Ok. tem mais um ponto que tenho interesse de conversar, e pelo jeito vocês estão bem adiantados nisso: preservação de longo prazo!

Um desafio, embora não seja tão grande quanto arquivos shapefiles que requerem sempre formato digital, é a que a gente tende a ter muita questão de metadados (por exemplo, tabelas de códigos com informações).

O ideal para gente seria pelo menos documentar ou saber como, além de preparar esse material para arquivar online, como converter as tabelas até em livros que podem ser impressos e arquivados em bibliotecas. Nós até temos um formato de arquivo que ajuda gerenciar um misto de traduções (como XLIFF) e terminologia hardcode (como TBX) em https://hdp.etica.ai/hxltm/. Dependendo para o ano que a gente do HXL-CPLP poderia preparar algum metodo de extrair o tabelas em HXLTM em formato impressão. Mas esse tipo de coisa até teria que levar em conta quais fontes de texto são melhor para futuramente ter que aplicar OCR (além da qualidade do papel).

ppKrauss commented 3 years ago

Olá @fititnt , interessante, não conhecíamos o padrão HXL... Pensando apenas em ontologias, adotamos Schema.org e suas pontes com Wikidata e OSM: qual a relação do HXL com esses padrões?

fititnt commented 3 years ago

Então, o Padrão HXL não é um um esquema de dados. Uma mandeira de explicar ele é que adicionando UMA linha entre o que seria cabecalho padrão em planilhas e o começo dos dados, é possível transformar seja um Excel, um Google Sheets, ou outra coisa que o pessoal que trabalha gerenciando dados na linha de frente acabe conseguindo transformar a propria planilha em algo que é usável imediatamente por ferramentas.

Em https://hxlstandard.org/how-it-works/ esse GIF da uma ideia

https://hxlstandard.org/images/hxl_demo.gif.

Existem ferramentas para lidar com ele, por exemplo.

Proxy publico mantido pela UN OCHA

Linha de comando

fititnt commented 3 years ago

@ppKrauss Mas o meu interesse mais com vocês é menos sobre o padrão HXL, e mais sobre datasets (que nem precisam estar nesse formato).

A listinha que estamos fazendo de lexicografia é mais ampla, mas vocês tendem a estar mais focados em tipo de dados GIS. Isso até é bem mais documentado do que vocabularios (que podem ser qualquer coisa).

Um video (que ainda não tem tradução para Português) mas da uma ideia geral dos CODs é isto aqui https://www.youtube.com/watch?v=CFUs8S0MPIY. Um ponto principal é o seguinte: para uso humanitário tudo deveria já estar publicado e pronto para uso. Isso entra no conceito de Preparedness https://en.wikipedia.org/wiki/Preparedness.

No Brasil, até tem muito desenvolvedor (que permite cada pessoa ter meio que um data warehouse privado) mas no meio humanitario, o numero de pessoas é muito, muito menor. A situação padrão que tem que ser otimizada é assumir que governo local não tem capacidade nem de responder e-mails (mesmo de quem é de fora e já é de organização prestando socorro e tentando enviar recursos). Por exemplo, além dos COD-ABs (que são as geometrias e códigos internacionais para lincar com elas) no mínimo deve-se ter uma quantidade de pessoas que vivem em cada código (mesmo que estimada) porque quando ocorre desastres enormes, com governo local sobrecarregado, pelo menos uma referencia de quantas pessoas vivem lá pode ser diferença entre quantos recursos precisam ser distribuídos por região.

Exemplos mais especiais do Brasil

Além do fato de idealmente tentar conversar, seja com governo brasileiro ou então por concenço de voluntários no Brasil CODs e FODs mais detalhados do que os que já tem no HDX (https://data.humdata.org/), o ideal seria estimular as pessoas a ter datasets ou scripts já prontos de tudo que poderia ser util em resposta de emergencia.

Por exemplo, isso nem sempre quer dizer ter uma API ideal do tipo "quantas vagas de leito tem em cada hospital a todo momento" mas pelo menos signfica ter lista de hospitais e outros Pontos de Interesse. E talvez (isso que é de interesse internacional) possivelmente até criar P-Code especial para esses PoIs e publicar os metadados.

Caso dos CEPs do brasil

Tecnicamente, como muitos pontos de interesse no Brasil nem usam latitude/longitude e o IBGE não fornece um sistema mais preciso em licença aberta, significa que para uso em resposta de emergencia, é critico que o Brasil tivesse uma forma de converter CEPs.

Não fui atrás ainda de conversar com eles, mas iniciativa como https://github.com/BrasilAPI/cep-promise, até tem certa curadoria, mas o ideal seria alguma alternativa otimizada para uso humanitário (tanto para uso dentro do brasil como internacional) caso seja necessário converter CEPs para P-Codes (ou latitude/longitude).

Nota: vale lembrar que uso humanitário tem preferência até na legislação brasileira. Isso quer dizer que se voluntários não conseguirem garantir que as alternativas comerciais são boas o suficiente para corrigir falhas, isso abre séria margem para pressionar a empresa detentora do copyright dos CEPs a ter que liberar os dados, pois erros nas alternativas levam a perda de vidas humanas. E lembrando que acesso humanitario tipicamente requer acesso em batelada.

ppKrauss commented 2 years ago

Apenas discussão e assuntos fora do escopo. Não gerou issue de desenvolvimento ou manutenção.

fititnt commented 2 years ago

Feito. Proposito inicial alcançado. Mas sim, fora do escopo desse repositório. Pode deixar fechado.