turicas / eleicoes-brasil

Scripts para capturar dados do Repositório de Dados Eleitorais do TSE, limpá-los, normalizá-los e agrupá-los
GNU General Public License v3.0
146 stars 33 forks source link

Correções nos metadados #15

Open turicas opened 3 years ago

turicas commented 3 years ago
turicas commented 3 years ago

Colunas ainda a verificar (receitas e despesas):

headers/despesa-candidatos-2014-suplementar.csv:6:"Sequencial Candidato",,"Sequencial do candidato na base de dados da Justiça Eleitoral"

headers/despesa-contratadas-partidos-2018.csv:31:"SQ_CANDIDATO_FORNECEDOR",,"Sequencial do candidato fornecedor, quando fornecedor candidato"

headers/receita-candidatos-2018.csv:55:SQ_RECEITA,,Sequencial de identificação do registro da receita declarada pelo prestador de contas
headers/receita-originarios-candidatos-2018.csv:21:"SQ_RECEITA",,"Sequencial de identificação do registro da receita declarada pelo prestador de contas"
headers/receita-originarios-partidos-2018.csv:17:"SQ_RECEITA",,"Sequencial de identificação do registro da receita declarada pelo prestador de contas"

headers/despesa-partidos-2012.csv:5:"Sequencial Diretorio",,
headers/despesa-partidos-2014.csv:6:"Sequencial Diretorio",,
headers/receita-partidos-2012.csv:5:"Sequencial Diretorio",,
headers/receita-partidos-2014.csv:6:"Sequencial Diretorio",,

headers/despesa-comites-2012.csv:5:"Sequencial Comite",,
headers/despesa-comites-2014.csv:6:"Sequencial Comite",,
headers/receita-comites-2014.csv:6:"Sequencial Comite",,

headers/receita-candidatos-2018.csv:46:SQ_CANDIDATO_DOADOR,,"Sequencial do candidato doador, quando a esfera partidária do doador for municipal"
headers/receita-comites-2014.csv:15:"Sigla UE doador",,
headers/receita-partidos-2018.csv:37:"SQ_CANDIDATO_DOADOR",,"Sequencial do candidato doador, quando a esfera partidária do doador for municipal"
headers/receita-partidos-2018.csv:46:"SQ_RECEITA",,"Sequencial de identificação do registro da receita declarada pelo prestador de contas"

headers/despesa-contratadas-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/despesa-pagas-candidatos-2018.csv:13:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/despesa-pagas-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/despesa-partidos-2014-suplementar.csv:6:"Sequencial do Prestador de conta",,
headers/despesa-partidos-2016.csv:6:"Sequencial do Prestador de conta",,"Sequencial da direção partidária na base de dados da Justiça Eleitoral"
headers/receita-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-originarios-candidatos-2018.csv:13:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/receita-originarios-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
headers/receita-partidos-2014-suplementar.csv:6:Sequencial prestador conta,,
headers/receita-partidos-2016.csv:6:"Sequencial prestador conta",,"Sequencial da direção partidária na base de dados da Justiça Eleitoral"
headers/receita-partidos-2018.csv:9:"SQ_PRESTADOR_CONTAS",,"Sequencial de identificação do prestador de contas junto à Justiça Eleitoral"
rhenanbartels commented 3 years ago

Talvez precisamos revisar a coluna SG_UE.

- receita-comites-2004.csv "SG_UE","codigo_unidade_eleitoral"

- despesa-comites-2006.csv "SG_UE","sigla_unidade_federativa"
rhenanbartels commented 3 years ago

Com relação ao Sequencial Prestador de Contas

O que percebi: para os arquivos de candidatos, existe o campo Sequencial Candidato, já nos arquivos de partidos/comites dos respectivos anos, existe o campo Sequencia Prestador de Contas. Acho que podemos colocar numero_sequencial_prestador_contas

existe o campo NR_CNPJ_PRESTADOR_CONTA que está como cnpj e cnpj_orgao Talvez poderíamos trocar tudo com Prestador de Contas para *_prestador_contas

2018/2020

Estou com a impressão que o termo Prestador de Contas mudou de significado em 2018 e 2020

Tanto nos arquivos de receita/despesa de 2018 de Candidatos e Partidos, só existe o campo Prestador de Contas

Nome em comum

Podemos usar o nome *_prestador_contas como comentado acima, mas o ideal seria termos (injetarmos) uma coluna identificando o tipo de prestador (que poderemos definir a partir do nome do arquivo).

turicas commented 3 years ago

Faltam:

$ grep -rHn ,, headers/ | grep -iv data | grep -iv hora
headers/despesa-partidos-2014-suplementar.csv:6:Sequencial do Prestador de conta,,
headers/receita-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-partidos-2014-suplementar.csv:6:Sequencial prestador conta,,
headers/candidatura-1994-BR.csv:25:PLACEHOLDER,,Placeholder para que o número de colunas fique de acordo
headers/receita-partidos-2016.csv:6:Sequencial prestador conta,,Sequencial da direção partidária na base de dados da Justiça Eleitoral
headers/receita-originarios-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/despesa-pagas-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-comites-2014.csv:15:Sigla UE doador,,
headers/receita-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/receita-originarios-candidatos-2018.csv:13:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/despesa-pagas-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
headers/despesa-partidos-2016.csv:6:Sequencial do Prestador de conta,,Sequencial da direção partidária na base de dados da Justiça Eleitoral
headers/despesa-contratadas-partidos-2018.csv:9:SQ_PRESTADOR_CONTAS,,Sequencial de identificação do prestador de contas junto à Justiça Eleitoral
rhenanbartels commented 3 years ago

Parece que nos arquivos de Comitê de 2006 (receita/despesa) os campos SG_UE, NO_UE se referem a Unidade Federativa.

Fazendo uma inspeção no arquivo do TSE:

cat 2006/Comitê/Despesa/DespesaComitê.CSV | cut -f4 -d";" | sort -u
"AC"
"AL"
"AM"
"AP"
"BA"
"BR"
"CE"
"DF"
"ES"
...

e o LEIOUTE (em anexo) de 2006 diz:

turicas commented 3 years ago

Erro ao rodar despesa: ValueError: dict contains fields not in fieldnames: 'numero_sequencial_diretorio', 'esfera_orgao'

(essas colunas estão nos headers mas não no schema)

rhenanbartels commented 3 years ago

Erro ao rodar despesa: ValueError: dict contains fields not in fieldnames: 'numero_sequencial_diretorio', 'esfera_orgao'

(essas colunas estão nos headers mas não no schema)

Adicionei as colunas no schema em 6520a870ac1

turicas commented 3 years ago

Algumas decisões de nomenclatura:

Em anos de eleições municipais, para receita teremos preenchidos:

Já anos de eleições majoritárias, para receita teremos: