leticia-nunes / doctors_politics

Study how physicians’ political preferences affect patients and healthcare delivery.
0 stars 0 forks source link

Organize Donations Database #2

Open leticia-nunes opened 6 days ago

leticia-nunes commented 6 days ago

Data Information:

leticia-nunes commented 6 days ago

@calebepiacentini, você poderia sugerir aqui um passo a passo de limpeza dessas duas bases de dados? Assim, podemos discutir e validar para você não ter muito retrabalho. E eu fiquei com duas dúvidas:

  1. Qual a diferença entre os dados receita_anual_year_BRASIL.csv e receita_anual_year_BR.csv? Eu coloquei a _BRASIL na descrição acima porque era a maior.
  2. Para quais anos essas duas bases estão disponíveis?
calebepiacentini commented 1 day ago

@leticia-nunes não tinha visto sua mensagem, vou colocar a ideia sob a qual tenho trabalhado:

Inicialmente, eu estava tentando abrir cada uma das bases anuais renomear as colunas de forma a torná-las homogêneas ao longo dos anos e criar algumas colunas adicionais: uma com o nome do doador e outra do candidato em maiúscula, sem acentos e sem espaços e mais uma para avaliar se o CPF de cada um deles era válido. No entanto, ambas as operações estavam tomando tempo demais, então achei melhor resumir a tarefa a simplesmente renomear todas as colunas e assim permitir a existência de uma base única e homogênea ao longo dos anos. Conforme eu fui fazendo essa tarefa, algumas questões surgiram, principalmente à variação na disponibilidade de dados para algumas colunas. Por exemplo: Se o CPF do candidato não existe para alguns anos (de fato, apenas >=2006), eu deveria incluir essa informação? Se o código do cargo está ausente em alguns anos, eu deveria incluí-lo? Em geral, decidi por incluir todas as variáveis relevantes, o que resultaria simplesmente em missing data numa base final para os anos em que estas informações estão ausentes. Em alguns casos tinha também a cidade e o código do TSE da cidade do candidato. Essas, e outras informações como hora de processamento dos dados, eu ignorei. Uma relação completa das colunas que eu considerei está no Git, em docs/donation_variables_description.txt. Ali eu coloco o nome da variável, seu tipo em parêntesis, a descrição depois dos dois pontos e entre colchetes a sua disponibilidade (~ significa que varia a disponibilidade). Meu próximo passo será juntar todas elas em uma só.

Em relação a suas dúvidas, respondo abaixo:

  1. A com final "BR" é simplesmente uma base apenas para cargos nacionais (i.e. presidente), a com final "BRASIL" inclui todos os cargos, inclusive os nacionais;
  2. Em algum sentido, desde 2002, mas a diferença é que a partir de um momento o TSE passou a compartilhar as bases também discriminadas por UF, mas essa informação é recuperável pela sigla_uf do candidato.
lucarno commented 1 day ago

Calebe, Na próxima, você pode enumerar todos os problemas que você acha? Ficou tudo em um parágrafo gigante e está difícil acompanhar. Outra coisa: eu já limpei essas bases no passado, por isso sinta-se a vontade em mandar mensagem pra mim tb.

Inicialmente, eu estava tentando abrir cada uma das bases anuais renomear as colunas de forma a torná-las homogêneas ao longo dos anos e criar algumas colunas adicionais: uma com o nome do doador e outra do candidato em maiúscula, sem acentos e sem espaços e mais uma para avaliar se o CPF de cada um deles era válido. No entanto, ambas as operações estavam tomando tempo demais, então achei melhor resumir a tarefa a simplesmente renomear todas as colunas e assim permitir a existência de uma base única e homogênea ao longo dos anos.

Não sei se entendi completamente, mas se o problema é memória, uma alternativa seria consolidar os dados ano-a-ano, para que cada ano tivéssemos: ano, cod ue, candidato, cpf candidato, numero partido, cargo, cpf doador, total doado pelo doador para o candidato. a partir dai empilhar.

Conforme eu fui fazendo essa tarefa, algumas questões surgiram, principalmente à variação na disponibilidade de dados para algumas colunas. Por exemplo: Se o CPF do candidato não existe para alguns anos (de fato, apenas >=2006), eu deveria incluir essa informação?

Acho OK por ora seguir só a partir de 2006 @leticia-nunes?

Se o código do cargo está ausente em alguns anos, eu deveria incluí-lo? Sim

Em geral, decidi por incluir todas as variáveis relevantes, o que resultaria simplesmente em missing data numa base final para os anos em que estas informações estão ausentes.

OK

Em alguns casos tinha também a cidade e o código do TSE da cidade do candidato. manter

Essas, e outras informações como hora de processamento dos dados, eu ignorei. OK

Uma relação completa das colunas que eu considerei está no Git, em docs/donation_variables_description.txt. Ali eu coloco o nome da variável, seu tipo em parêntesis, a descrição depois dos dois pontos e entre colchetes a sua disponibilidade (~ significa que varia a disponibilidade). Meu próximo passo será juntar todas elas em uma só.

calebepiacentini commented 1 day ago

Na próxima, você pode enumerar todos os problemas que você acha?

Claro! Realmente ficou muito confuso assim.

Outra coisa: eu já limpei essas bases no passado, por isso sinta-se a vontade em mandar mensagem pra mim tb.

Beleza! Mandarei.

Não sei se entendi completamente

O problema era só que a operação em si estava demorando demais para rodar, mas, no final das contas eu fiz isso que você disse de consolidar os dados ano-a-ano e depois juntá-los em uma só. Aliás, agora eu já fiz isso, e consegui através do data.table, que é uma solução muito mais eficiente.

Estou testando agora em fazer aquelas operações (como a de limpar o nome) com o data.table.

Acho OK por ora seguir só a partir de 2006

Destaco que é apenas o CPF do candidato que está ausente, do doador nós sempre temos, assim como o partido do candidato a que ele doou.

lucarno commented 1 day ago

Sim, só uso data.table. Se não temos o cpf do candidato só, mantenha essas bases. É poss~ivel recuperar o cpf dos candidatos com a base de candidatos. Só pra ficar claro, na base final a linha deve ser doador-ano-candidato, e não doador-ano-candidato-receita.

leticia-nunes commented 21 hours ago

Olá pessoal,

image

image