Open fititnt opened 3 years ago
Como referência, essa é a tela de metadata de um COD do Brasil https://data.humdata.org/dataset/f5f0648e-f085-4c85-8242-26bf6c942f40. Definitivamente alguns destes campos deveriam ter por por padrão em uma aba de metadados.
Ponto pertinente: planilhas muito grandes a aba Metadados, ainda mais na primeira aba, é inviável pois a tendência (pelo menos do HXL Proxy) quando for especificar um arquivo xlsx é considerar por padrão primeira aba.
Fiz um teste rápido com CEP dos correios brasileiros (baixei do http://cep.la/baixar) e, ainda que o HXL proxy funciona bem com mais de um milhão de linhas por limitação do Google Docs, não é possível converter o .xlsx para o Google spreadsheets. Ainda é possível usar o HXL proxy, porem ele irá usar o arquivo bruto, como foi enviado ao Google Drive.
Vale a pena fazer mais testes, porém existe motivos para não por sempre como primeira aba.
Ok. Acho que o equivalente a uma planilha que explica a própria planilha (no caso, estava usando #meta+id
e colocando em caixa alta os termos, so que em inglês) pode valer a pena simplesmente converter eles mesmos para hashtags validas
Na primeira imagem eu testei com meta_
em vez de #
porque se isso fosse usado no cabeçalho de uma planilha única, como esta
daria problemas.
Porém pelo menos na planilha que já tem um cabecalho, o hxl_
substituindo o #
não seria necessário. O que talvez seria interessante é que não fosse obrigatório adicionar as #
pois não sei se isso quebraria. Talvez seja questão de testarmos.
Este issue é para comentar/documentar convenções no uso de planilhas HXL, em especial as compartilhadas no
Google Drive > HXL-CPLP > HXL-CPLP-Publico > Datasets
Locais para armazenar/citar como fonte das planilhas
The Humanitarian Data Exchange (https://data.humdata.org/)
Um local de referência para publicar dados humanitários é o HDX.
Porém @EticaAI nem @HXL-CPLP tem corna como organização lá (e conta como organizador é necessário para publicar datasets). Creio que meses atrás até tentei inscrever como EticaAI (na época para tentar replicar o link para a API do Brasil.IO), mas não tivemos resposta depois da entrevista inicial. E eu também não fui atrás (estava ocupado; talvez podemos rever isso quando tivermos datasets.
De qualquer forma muito provavelmente muitos datasets não finalizados (ou que não são estritamente humanitários) teriam que ser publicados de alguma outra forma mesmo que tivéssemos acesso ao HDX. Por isso pelo menos parte das planilhas HXL poderiam ficar diretamente no Google Docs.
Resumindo: Não apenas o HXL-CPLP, mas outros que se inspirem na gente e queiram deixar dados publicados (e não apenas expor o resultado final, mas potencialmente deixar a planilha em si) provavelmente precisariam de na própria planilha uma meta explicação.
HXL Proxy (https://proxy.hxlstandard.org/data/source)
O HXL proxy, embora possa ser usado para divulgar uma folha (uma planilha individual de uma completa) não serve para armazenar os dados de forma persistente.
Porem em teoria, seja nós mesmos ou alguém reusando dados, pelo menos a discussão de ter uma planilha dedicada para meta dados deixa de ser mais relevante. Ainda pode servir para controle interno.
Google Docs
Isso pode gerar alguns problemas. Um deles é que explicitamente deixamos (senão mesmo sugerirmos) as pessoas poderem copiar as planilhas para outros Google Docs (embora por acaso li que opção de, quem fez cópia para Google drive pessoal sem fazer download e upload pode ter sua cópia deletada de o original for deletado; isso é pertinente citar. Não digo que deveríamos proteger potencial "má fé" mas que uma pessoa poderia estar editando uma cópia (ou ter acesso anima copia desatualizada) e não saber.
Creio que o ideal nesse caso seria ao menos informação por padrão em todas as planilhas de onde está planilha deve estar hospedada para ser considerada a original do HXL-CPLP. Talvez podemos começar simplesmente apontando o link da pasta do Google Drive público do HXL-CPLP caso não tenhamos um site dedicado para isso.
Convenções mínimas em cada planilha
Sheet 1 / Folha 1: semelhante a "sobre" (EN: about) "LEIA-ME" (EN: README) ou "Meta", "Meta dados" (EN: Metadata)
Outros pontos
Para primeiro post, já tem algo inicial.