basedosdados / queries-basedosdados

🔍 Gerenciador de modelos de transformação de dados (ELT) no datalake
8 stars 4 forks source link

[fix] `br_tse_eleicoes.partidos` #686

Closed rdahis closed 2 weeks ago

rdahis commented 1 month ago

Reportado por um usuário:

Estou trabalhando com a base de dados de partidos porque estou interessado nas coligações e notei que há algumas informações faltantes. Por exemplo, o PT em SC para deputado federal em 2018, ou o PSD também para deputado federal no RJ em 2018. Estou trabalhando com os dados a partir de 2006 para as eleições de vereadores, deputados estaduais e deputados federais. Nesse período, identifiquei 1748 casos faltantes (partido/ano/cargo).

Quando consulto o site de resultados do TSE, verifico que essas informações estão disponíveis. Por coincidência (ou não), os casos que investiguei tratavam-se de partidos isolados. No entanto, como a base de dados inclui partidos isolados, não gostaria de assumir que seja sempre o caso.

tricktx commented 1 month ago

Foi algum erro na hora de particionar, @rdahis?

rdahis commented 1 month ago

Acredito que não porque não há partição por tipo de partidos assim. Vou investigar o código de limpeza, se por acaso essas observações foram descartadas.

rdahis commented 1 month ago

Descobri o problema. No código de limpeza eu estava deletando linhas onde haviam duplicadas de partidos isolados. Agora mudei para, quando houver duplicadas onde uma das linhas é uma coligação, assumir que essa é a verdade. Ou seja, só deletar linhas de partidos isolados quando houver outra linha dizendo que é coligação.

Testei em basedosdados-dev.br_tse_eleicoes.partidos e os casos relatados estão agora na tabela.

rdahis commented 2 weeks ago

Já foi para produção há algum tempo.