turicas / brasil.io

Backend do Brasil.IO (para código dos scripts de coleta de dados, veja o link na página de cada dataset)
https://brasil.io/
GNU General Public License v3.0
933 stars 145 forks source link

Implementar metadados nos scripts de datasets já existentes #84

Open turicas opened 6 years ago

turicas commented 6 years ago

Pré-requisito: #83.

ppKrauss commented 6 years ago

Proposta/Sugestão de uso da Web Semântica para agilizar e padronizar metados.

Metadados são importantes mas são chatinhos, fazem papel de documentação e programadores em geral não tem saco de documentar direitinho... E cada um faz do seu jeito, entende do seu jeito... A tendência que vejo para solucionar os problemas da preguiça e da padronização numa só tacada, é referenciar descritores semânticos. Hoje em dia, finalmente, está ficando bem simples!

Imagine dados cadastrais de pessoas físicas em padrão vCard: já é um padrão, não precisa reinventar a documentação, mas precisa ser referenciado campo a campo com precisão... Felizmente quem tem permitido isso é o SchemaOrg. No caso imaginado do vCard de pessoa física, tratam-se das classes https://schema.org/Person e https://schema.org/ContactPoint

Quando é um dado muito cricri, que não tem nem similar no SchemaOrg, aí apelamos para a Wikidata. Por exemplo no dataset Brasil-io de genero-nomes os "nomes" são melhor especificados como https://schema.org/givenName
mas, se precisar se mais preciso, talvez o correto seja firstName, visto que givenName tem semântica de prenome, mas o que o IBGE oferece é apenas a "primeira parte do prenome" (ex. Fernando em "Fernando Henrique"). Aí a Wikidata tem o http://wikidata.org/entity/P735
Precisando dá também para designar prenomes masculino (Q12308941) e feminino (Q11879590).

... E em último caso sempre podemos criar um conceito novo na Wikidata e pronto, vai ter um identificador eterno, e a curadoria do Brasil-IO fica de olho uma vez por ano para a comunidade Wikidata manter a consistência do conceito.


Basta adicionar uma coluna "semantic" à tabela Brasil.IO - Dados/Field.