transparencia-mg / lista-utilidades

0 stars 0 forks source link

[Semanário] ETL para abertura de dados #8

Closed fjuniorr closed 3 years ago

fjuniorr commented 4 years ago
Andrelamor commented 3 years ago
  1. Teve uma frase que me fez refletir, em paralelo com esse trabalho de fazer os datapackages, que uma premissa a ser seguida é a de que o usuário tem de conseguir exaurir o entendimento do conceito de qualquer valor ou campo que for apresentado nos nossos Portais. Não precisaria consultar outra fonte pra entender algo, no máximo a indicação de outro sítio com maiores referências, em casos excepcionais:

    Transform: reformatting and reshaping the data in ways that make it usable

A frase tb pode ser usada no sentido de legível e reutilizável por scripts, mas daí já dependeríamos mais de terceiros. A parte do 'humanamente compreensível', enquanto transparência ativa, é menos 'imagem-objetivo', está mais alcançável para nós.

  1. A próxima frase e o que vem após ela provam que contratar consultoria ou qq empresa famosa, ou dita 'especializada', não nos pouparia (curadoria, gestão da integração, DTI) o trabalho de se apropriar de algum pedaço do ETL:

This is at the core of the ETL issue: because the very problem of data integration is about bringing together disparate, heterogeneous systems, there isn’t really a clear-winner, “out-of-the-box” solution.

Pagar por um serviço externo nesse sentido, julgando que seria mais qualificado, seria auto-engano.

  1. olha a ideia do blog aí ó:

But I’m also writing this blog post – perhaps a bit audaciously – as a call to arms: all of us doing data work inside government need to start writing more publicly about our processes, hacks, and tools, and collaborating across boundaries.

Para dar um up nas possibilidades de colaboração , além dos modos burocrático/tradicionais da máquina pública, escrever e fazer circular nesse mundo deve ser um pre-requisito para a colaboração (que o autor ressaltou como ponto específico), às vezes mais que pull requests ou forks nos repositórios. Tem que haver uma chamada de atenção por meio de um blog que concentre o estado da arte de determinado grupo.

fjuniorr commented 3 years ago

Eu acho a frase

The fact that I can go months hearing about “open data” without a single mention of ETL is a problem. ETL is the pipes of your house: it’s how you open data.

simplesmente fantástica pra resumir a nossa experiência. Esse problema de não se "apropriar" da linguagem de outros áreas de conhecimento parece ser mais geral no movimento de dados abertos. Falo isso por causa das observações da tese do Thomaz de que o movimento também não se apropriou da linguagem da ciência da informação, que em teoria seria uma das disciplinas acadêmicas mais diretamente relacionadas com os propósitos do movimento.

Agora, pra mim, o principal caminho que o post aponta para lidar com ETL e que eu tenho tentado fomentar é a criação de capacidade interna. As vezes pode parecer que estamos andando devagar por causa disso, mas não tenho dúvida que eventualmente a gente vai colher os resultados.

Agora, comentando um pouco sobre o que o @Andrelamor disse, apesar de achar que a palavra exaurir em

uma premissa a ser seguida é a de que o usuário tem de conseguir exaurir o entendimento do conceito de qualquer valor ou campo que for apresentado nos nossos Portais.

é um pouco forte demais, hoje em dia pecamos por menos no quesito de apresentar documentação que possibilite o entendimento dos dados apresentados.

Essa problema tem várias partes, e alguns acho que não seriam nem da nossa alçada[^1], acho difícil pensar outro início que não seja um maior entendimento nosso acerca das informações que estamos divulgando. Estava lendo sobre ferramentas para documentação de bancos de dados e esbarrei nesse trecho que resume a minha abordagem

But while tool support is helpful (and even critical, in bigger databases), doing the hard work of understanding and explaining the conceptual model of the database is the real win. From that perspective, you can even do it in a text file (though doing it in Wiki form would allow several people to collaborate on adding to that documentation incrementally - so, every time someone figures out something, they can add it to the growing body of documentation instantly).

Ps. Queria falar a contratação de consultorias e o blog mas acabaram meus pomodoros!!

[1]: Por exemplo, para entendimento dos campos e valores é necessário um modelo mental sobre o macroprocesso subjacente que serve como “processo gerador dos dados”. Em outras palavras, é difícil entender os campos e valores relacionados ao pagamento da despesa se não existir conhecimento prévio sobre pagamentos em geral e pagamentos no setor público. Esse tipo de documentação é virtualmente inexistente no Portal da Transparência, mas tenho minhas dúvidas de onde esse tipo de informação deveria ser produzida e ofertada.