transparencia-mg / remuneracao

dataset que contém arquivos da consulta de remuneração mensal dos servidores
https://transparencia-mg.github.io/remuneracao/
0 stars 0 forks source link

Impossibilidade de rastrear a linhagem / proveniência dos arquivos recebidos #34

Open fjuniorr opened 3 years ago

fjuniorr commented 3 years ago

Atualmente o processamento dos arquivos da remuneração começa com a consolidação dos três arquivos por meio do comando

make merge resource=servidores-AAAA-MM # gera arquivo consolidado data-raw/servidores-AAAA-MM.csv

Esse comando supõe que na pasta data-raw os seguintes arquivos estão presentes

data-raw/servidores-AAAA-MM-civis.csv
data-raw/servidores-AAAA-MM-cbmmg.xlsx
data-raw/servidores-AAAA-MM-pmmg.xlsx

No fluxo atual esses arquivos foram recebidos via email para PMMG e CBMMG e via google drive ou ftp para CIVIS e foram renomeados. Isso significa que a linhagem entre o arquivo original e o arquivo utilizado na primeira etapa de consolidação fica perdida, e um terceiro não consegue reproduzir o que foi feito.

Um exemplo de erro manual que pode ocorrer é a renomeação do arquivo referente a um mês sendo renomeado com outro mês.

Precisamos pensar em um processo para que a linhagem não se perca, que seja capaz de lidar com múltiplas submissões (ie. correção de erros identificado em algum envio).

Algumas referências para essa discussão são:

fjuniorr commented 3 years ago

Pra tentar atacar esse problema inseri no recurso de fev/2021 a propriedade sources (vide spec)

      "sources": [
        {
          "title": "Remuneração PMMG",
          "name": "servidores-2021-02-pmmg",
          "path": "https://drive.google.com/file/d/1KgS9zoPVyR9bt4QXO0IY_bC2Bo-yx00d"
        }]

Também adicionei o scripts/download-google-drive.R que usa essa propriedade pra fazer o download do google drive e salvar na pasta data-raw/ com os nomes corretos, independentemente do nome original do arquivo, que pode ser mantido sem modificação.

Esse fluxo ainda não está 100% porque a atualização dos ids do google drive na propriedade sources ainda é muito passível de erro copia+cola. Um exemplo é esquecer de mudar um id e a gente reusar de forma incorreta a planilha de um mês anterior.