Organize Donations Database

leticia-nunes commented 6 days ago

Data Information:

Data available at Dados Abertos do TSE
Raw Data:
1. Prestação de Contas Eleitorais
  - Zip file: prestação_contas_final_year.zip
  - Txt file: receitas_candidatos_prestacao_contas_final_year_brasil.txt
  - Dictionary: Leiaute_RDE_2016_1.0.1.pdf
2. Prestação de Contas Partidárias
  - Zip file: prestacao_contas_anual_partidaria_year.zip
  - Csv file: receita_anual_year_BRASIL.csv
  - Dictionary: leiame-receitas.pdf
Main identifiers: CPF and Name

leticia-nunes commented 6 days ago

@calebepiacentini, você poderia sugerir aqui um passo a passo de limpeza dessas duas bases de dados? Assim, podemos discutir e validar para você não ter muito retrabalho. E eu fiquei com duas dúvidas:

Qual a diferença entre os dados receita_anual_year_BRASIL.csv e receita_anual_year_BR.csv? Eu coloquei a _BRASIL na descrição acima porque era a maior.
Para quais anos essas duas bases estão disponíveis?

calebepiacentini commented 1 day ago

@leticia-nunes não tinha visto sua mensagem, vou colocar a ideia sob a qual tenho trabalhado:

Inicialmente, eu estava tentando abrir cada uma das bases anuais renomear as colunas de forma a torná-las homogêneas ao longo dos anos e criar algumas colunas adicionais: uma com o nome do doador e outra do candidato em maiúscula, sem acentos e sem espaços e mais uma para avaliar se o CPF de cada um deles era válido. No entanto, ambas as operações estavam tomando tempo demais, então achei melhor resumir a tarefa a simplesmente renomear todas as colunas e assim permitir a existência de uma base única e homogênea ao longo dos anos. Conforme eu fui fazendo essa tarefa, algumas questões surgiram, principalmente à variação na disponibilidade de dados para algumas colunas. Por exemplo: Se o CPF do candidato não existe para alguns anos (de fato, apenas >=2006), eu deveria incluir essa informação? Se o código do cargo está ausente em alguns anos, eu deveria incluí-lo? Em geral, decidi por incluir todas as variáveis relevantes, o que resultaria simplesmente em missing data numa base final para os anos em que estas informações estão ausentes. Em alguns casos tinha também a cidade e o código do TSE da cidade do candidato. Essas, e outras informações como hora de processamento dos dados, eu ignorei. Uma relação completa das colunas que eu considerei está no Git, em docs/donation_variables_description.txt. Ali eu coloco o nome da variável, seu tipo em parêntesis, a descrição depois dos dois pontos e entre colchetes a sua disponibilidade (~ significa que varia a disponibilidade). Meu próximo passo será juntar todas elas em uma só.

Em relação a suas dúvidas, respondo abaixo:

A com final "BR" é simplesmente uma base apenas para cargos nacionais (i.e. presidente), a com final "BRASIL" inclui todos os cargos, inclusive os nacionais;
Em algum sentido, desde 2002, mas a diferença é que a partir de um momento o TSE passou a compartilhar as bases também discriminadas por UF, mas essa informação é recuperável pela sigla_uf do candidato.

lucarno commented 1 day ago

Calebe, Na próxima, você pode enumerar todos os problemas que você acha? Ficou tudo em um parágrafo gigante e está difícil acompanhar. Outra coisa: eu já limpei essas bases no passado, por isso sinta-se a vontade em mandar mensagem pra mim tb.

Inicialmente, eu estava tentando abrir cada uma das bases anuais renomear as colunas de forma a torná-las homogêneas ao longo dos anos e criar algumas colunas adicionais: uma com o nome do doador e outra do candidato em maiúscula, sem acentos e sem espaços e mais uma para avaliar se o CPF de cada um deles era válido. No entanto, ambas as operações estavam tomando tempo demais, então achei melhor resumir a tarefa a simplesmente renomear todas as colunas e assim permitir a existência de uma base única e homogênea ao longo dos anos.

Não sei se entendi completamente, mas se o problema é memória, uma alternativa seria consolidar os dados ano-a-ano, para que cada ano tivéssemos: ano, cod ue, candidato, cpf candidato, numero partido, cargo, cpf doador, total doado pelo doador para o candidato. a partir dai empilhar.

Conforme eu fui fazendo essa tarefa, algumas questões surgiram, principalmente à variação na disponibilidade de dados para algumas colunas. Por exemplo: Se o CPF do candidato não existe para alguns anos (de fato, apenas >=2006), eu deveria incluir essa informação?

Acho OK por ora seguir só a partir de 2006 @leticia-nunes?

Se o código do cargo está ausente em alguns anos, eu deveria incluí-lo? Sim

Em geral, decidi por incluir todas as variáveis relevantes, o que resultaria simplesmente em missing data numa base final para os anos em que estas informações estão ausentes.

OK

Em alguns casos tinha também a cidade e o código do TSE da cidade do candidato. manter

Essas, e outras informações como hora de processamento dos dados, eu ignorei. OK

Uma relação completa das colunas que eu considerei está no Git, em docs/donation_variables_description.txt. Ali eu coloco o nome da variável, seu tipo em parêntesis, a descrição depois dos dois pontos e entre colchetes a sua disponibilidade (~ significa que varia a disponibilidade). Meu próximo passo será juntar todas elas em uma só.

calebepiacentini commented 1 day ago

Na próxima, você pode enumerar todos os problemas que você acha?

Claro! Realmente ficou muito confuso assim.

Outra coisa: eu já limpei essas bases no passado, por isso sinta-se a vontade em mandar mensagem pra mim tb.

Beleza! Mandarei.

Não sei se entendi completamente

O problema era só que a operação em si estava demorando demais para rodar, mas, no final das contas eu fiz isso que você disse de consolidar os dados ano-a-ano e depois juntá-los em uma só. Aliás, agora eu já fiz isso, e consegui através do data.table, que é uma solução muito mais eficiente.

Estou testando agora em fazer aquelas operações (como a de limpar o nome) com o data.table.

Acho OK por ora seguir só a partir de 2006

Destaco que é apenas o CPF do candidato que está ausente, do doador nós sempre temos, assim como o partido do candidato a que ele doou.

lucarno commented 1 day ago

Sim, só uso data.table. Se não temos o cpf do candidato só, mantenha essas bases. É poss~ivel recuperar o cpf dos candidatos com a base de candidatos. Só pra ficar claro, na base final a linha deve ser doador-ano-candidato, e não doador-ano-candidato-receita.

leticia-nunes commented 21 hours ago

Olá pessoal,

@calebepiacentini, concordo com o Lucas que é melhor organizar as dúvidas em bullet points.
Sobre a pergunta de 2006, acho que deveríamos manter os anos anteriores também. O CPF do candidato não é tão crucial nessa base especificamente (o foco maior é no doador) e pelo que o @lucarno disse podemos recuperar essa informação na base de candidatos. Então sugiro começarmos em 2002 mesmo que é o primeiro ano. O que acham?
E, quando puder @calebepiacentini, mande uma sugestão da limpeza dos dados nos moldes abaixo. Que acho que fica mais facil de opinarmos. Pode ser um pouco mais geral inicialmente e depois vamos iterando em variaveis/problemas mais específicos.

leticia-nunes / doctors_politics

Organize Donations Database #2

Data Information: