HXL-CPLP / forum

Fórum do Grupo de Usuários do Padrão HXL da Comunidade dos Países de Língua Portuguesa, "HXL-CPLP"
https://github.com/HXL-CPLP/forum/issues
The Unlicense
2 stars 0 forks source link

Padrões/convenções mínimos do HXL-CPLP de como uma planilha HXL deveria ter #26

Open fititnt opened 3 years ago

fititnt commented 3 years ago

Este issue é para comentar/documentar convenções no uso de planilhas HXL, em especial as compartilhadas no Google Drive > HXL-CPLP > HXL-CPLP-Publico > Datasets

Locais para armazenar/citar como fonte das planilhas

The Humanitarian Data Exchange (https://data.humdata.org/)

Um local de referência para publicar dados humanitários é o HDX.

Porém @EticaAI nem @HXL-CPLP tem corna como organização lá (e conta como organizador é necessário para publicar datasets). Creio que meses atrás até tentei inscrever como EticaAI (na época para tentar replicar o link para a API do Brasil.IO), mas não tivemos resposta depois da entrevista inicial. E eu também não fui atrás (estava ocupado; talvez podemos rever isso quando tivermos datasets.

De qualquer forma muito provavelmente muitos datasets não finalizados (ou que não são estritamente humanitários) teriam que ser publicados de alguma outra forma mesmo que tivéssemos acesso ao HDX. Por isso pelo menos parte das planilhas HXL poderiam ficar diretamente no Google Docs.

Resumindo: Não apenas o HXL-CPLP, mas outros que se inspirem na gente e queiram deixar dados publicados (e não apenas expor o resultado final, mas potencialmente deixar a planilha em si) provavelmente precisariam de na própria planilha uma meta explicação.

HXL Proxy (https://proxy.hxlstandard.org/data/source)

O HXL proxy, embora possa ser usado para divulgar uma folha (uma planilha individual de uma completa) não serve para armazenar os dados de forma persistente.

Porem em teoria, seja nós mesmos ou alguém reusando dados, pelo menos a discussão de ter uma planilha dedicada para meta dados deixa de ser mais relevante. Ainda pode servir para controle interno.

Google Docs

Isso pode gerar alguns problemas. Um deles é que explicitamente deixamos (senão mesmo sugerirmos) as pessoas poderem copiar as planilhas para outros Google Docs (embora por acaso li que opção de, quem fez cópia para Google drive pessoal sem fazer download e upload pode ter sua cópia deletada de o original for deletado; isso é pertinente citar. Não digo que deveríamos proteger potencial "má fé" mas que uma pessoa poderia estar editando uma cópia (ou ter acesso anima copia desatualizada) e não saber.

Creio que o ideal nesse caso seria ao menos informação por padrão em todas as planilhas de onde está planilha deve estar hospedada para ser considerada a original do HXL-CPLP. Talvez podemos começar simplesmente apontando o link da pasta do Google Drive público do HXL-CPLP caso não tenhamos um site dedicado para isso.

Convenções mínimas em cada planilha

Sheet 1 / Folha 1: semelhante a "sobre" (EN: about) "LEIA-ME" (EN: README) ou "Meta", "Meta dados" (EN: Metadata)

  1. Faz sentido que alguma planilha tenha metadados. Isso definitivamente deveria ser um requisito obrigatório (para nossas convenções internas)
  2. Como essa planilha poderia estar em qualquer posição do documento, talvez seja melhor simplesmente ela ser a primeira planilha. Isso também tende a ser um requisito obrigatório (para nossas convenções internas)
  3. Faz sentido a primeira planilha ser um documento HXL válido, pois ao ser a primeira planilha aumenta as chances de uma pessoa nova, ao tentar "testar" o HXL proxy receber um alerta (sem entender que o HXL proxy e outras ferramentas observam uma planilha por vez)
  4. Quanto as informações mínimas para conter: boa pergunta. Isso é algo para ser visto
  5. Quando ao idioma usado: pela planilha já ser HXL tecnicamente não seria necessário restringir idioma. (Para fins do HXL-CPLP provavelmente explicitamente devemos usar Português)

Outros pontos

Para primeiro post, já tem algo inicial.

fititnt commented 3 years ago

Como referência, essa é a tela de metadata de um COD do Brasil https://data.humdata.org/dataset/f5f0648e-f085-4c85-8242-26bf6c942f40. Definitivamente alguns destes campos deveriam ter por por padrão em uma aba de metadados.

Captura de tela de 2020-12-06 00-50-33

fititnt commented 3 years ago

Ponto pertinente: planilhas muito grandes a aba Metadados, ainda mais na primeira aba, é inviável pois a tendência (pelo menos do HXL Proxy) quando for especificar um arquivo xlsx é considerar por padrão primeira aba.

Fiz um teste rápido com CEP dos correios brasileiros (baixei do http://cep.la/baixar) e, ainda que o HXL proxy funciona bem com mais de um milhão de linhas por limitação do Google Docs, não é possível converter o .xlsx para o Google spreadsheets. Ainda é possível usar o HXL proxy, porem ele irá usar o arquivo bruto, como foi enviado ao Google Drive.

Vale a pena fazer mais testes, porém existe motivos para não por sempre como primeira aba.

fititnt commented 3 years ago

Ok. Acho que o equivalente a uma planilha que explica a própria planilha (no caso, estava usando #meta+id e colocando em caixa alta os termos, so que em inglês) pode valer a pena simplesmente converter eles mesmos para hashtags validas

Captura de tela de 2020-12-10 23-47-16

Na primeira imagem eu testei com meta_ em vez de # porque se isso fosse usado no cabeçalho de uma planilha única, como esta

Captura de tela de 2020-12-10 23-49-39

daria problemas.

Porém pelo menos na planilha que já tem um cabecalho, o hxl_ substituindo o # não seria necessário. O que talvez seria interessante é que não fosse obrigatório adicionar as # pois não sei se isso quebraria. Talvez seja questão de testarmos.