turicas / brasil.io

Backend do Brasil.IO (para código dos scripts de coleta de dados, veja o link na página de cada dataset)
https://brasil.io/
GNU General Public License v3.0
932 stars 145 forks source link

Criar metadados para identificar dataset #144

Open turicas opened 6 years ago

turicas commented 6 years ago

Como explicado aqui. Isso ajudará os datasets serem encontrados no Google Dataset Search.

endersonmaia commented 6 years ago

@turicas já ouviu falar do projeto https://frictionlessdata.io ?

Acho uma alternativa interessante para o brasil.io, pois os próprios repositórios com os datasets que vc mantém o código que recuperar os dados e os libertam, já poderiam ser usados para armazenar os próprios dados.

Você tem projetos como https://datahub.io que cataloga/publica os datapackages e o http://goodtables.io que é como se fosse um serviço de CI/CD para dados.

Como o stack do brasil.io já é python, dá uma olhada aqui : https://github.com/frictionlessdata/datapackage-py

endersonmaia commented 6 years ago

Segue duas referências sobre datapackage só pra dar uma ideia :