Open leticia-nunes opened 6 days ago
@calebepiacentini, você poderia sugerir aqui um passo a passo de limpeza dessas duas bases de dados? Assim, podemos discutir e validar para você não ter muito retrabalho. E eu fiquei com duas dúvidas:
@leticia-nunes não tinha visto sua mensagem, vou colocar a ideia sob a qual tenho trabalhado:
Inicialmente, eu estava tentando abrir cada uma das bases anuais renomear as colunas de forma a torná-las homogêneas ao longo dos anos e criar algumas colunas adicionais: uma com o nome do doador e outra do candidato em maiúscula, sem acentos e sem espaços e mais uma para avaliar se o CPF de cada um deles era válido. No entanto, ambas as operações estavam tomando tempo demais, então achei melhor resumir a tarefa a simplesmente renomear todas as colunas e assim permitir a existência de uma base única e homogênea ao longo dos anos. Conforme eu fui fazendo essa tarefa, algumas questões surgiram, principalmente à variação na disponibilidade de dados para algumas colunas. Por exemplo: Se o CPF do candidato não existe para alguns anos (de fato, apenas >=2006), eu deveria incluir essa informação? Se o código do cargo está ausente em alguns anos, eu deveria incluí-lo? Em geral, decidi por incluir todas as variáveis relevantes, o que resultaria simplesmente em missing data numa base final para os anos em que estas informações estão ausentes. Em alguns casos tinha também a cidade e o código do TSE da cidade do candidato. Essas, e outras informações como hora de processamento dos dados, eu ignorei. Uma relação completa das colunas que eu considerei está no Git, em docs/donation_variables_description.txt. Ali eu coloco o nome da variável, seu tipo em parêntesis, a descrição depois dos dois pontos e entre colchetes a sua disponibilidade (~ significa que varia a disponibilidade). Meu próximo passo será juntar todas elas em uma só.
Em relação a suas dúvidas, respondo abaixo:
Calebe, Na próxima, você pode enumerar todos os problemas que você acha? Ficou tudo em um parágrafo gigante e está difícil acompanhar. Outra coisa: eu já limpei essas bases no passado, por isso sinta-se a vontade em mandar mensagem pra mim tb.
Inicialmente, eu estava tentando abrir cada uma das bases anuais renomear as colunas de forma a torná-las homogêneas ao longo dos anos e criar algumas colunas adicionais: uma com o nome do doador e outra do candidato em maiúscula, sem acentos e sem espaços e mais uma para avaliar se o CPF de cada um deles era válido. No entanto, ambas as operações estavam tomando tempo demais, então achei melhor resumir a tarefa a simplesmente renomear todas as colunas e assim permitir a existência de uma base única e homogênea ao longo dos anos.
Não sei se entendi completamente, mas se o problema é memória, uma alternativa seria consolidar os dados ano-a-ano, para que cada ano tivéssemos: ano, cod ue, candidato, cpf candidato, numero partido, cargo, cpf doador, total doado pelo doador para o candidato. a partir dai empilhar.
Conforme eu fui fazendo essa tarefa, algumas questões surgiram, principalmente à variação na disponibilidade de dados para algumas colunas. Por exemplo: Se o CPF do candidato não existe para alguns anos (de fato, apenas >=2006), eu deveria incluir essa informação?
Acho OK por ora seguir só a partir de 2006 @leticia-nunes?
Se o código do cargo está ausente em alguns anos, eu deveria incluí-lo? Sim
Em geral, decidi por incluir todas as variáveis relevantes, o que resultaria simplesmente em missing data numa base final para os anos em que estas informações estão ausentes.
OK
Em alguns casos tinha também a cidade e o código do TSE da cidade do candidato. manter
Essas, e outras informações como hora de processamento dos dados, eu ignorei. OK
Uma relação completa das colunas que eu considerei está no Git, em docs/donation_variables_description.txt. Ali eu coloco o nome da variável, seu tipo em parêntesis, a descrição depois dos dois pontos e entre colchetes a sua disponibilidade (~ significa que varia a disponibilidade). Meu próximo passo será juntar todas elas em uma só.
Na próxima, você pode enumerar todos os problemas que você acha?
Claro! Realmente ficou muito confuso assim.
Outra coisa: eu já limpei essas bases no passado, por isso sinta-se a vontade em mandar mensagem pra mim tb.
Beleza! Mandarei.
Não sei se entendi completamente
O problema era só que a operação em si estava demorando demais para rodar, mas, no final das contas eu fiz isso que você disse de consolidar os dados ano-a-ano e depois juntá-los em uma só. Aliás, agora eu já fiz isso, e consegui através do data.table, que é uma solução muito mais eficiente.
Estou testando agora em fazer aquelas operações (como a de limpar o nome) com o data.table.
Acho OK por ora seguir só a partir de 2006
Destaco que é apenas o CPF do candidato que está ausente, do doador nós sempre temos, assim como o partido do candidato a que ele doou.
Sim, só uso data.table. Se não temos o cpf do candidato só, mantenha essas bases. É poss~ivel recuperar o cpf dos candidatos com a base de candidatos. Só pra ficar claro, na base final a linha deve ser doador-ano-candidato, e não doador-ano-candidato-receita.
Olá pessoal,
Data Information:
Data available at Dados Abertos do TSE
Raw Data:
Main identifiers: CPF and Name