turicas / brasil.io

Backend do Brasil.IO (para código dos scripts de coleta de dados, veja o link na página de cada dataset)
https://brasil.io/
GNU General Public License v3.0
918 stars 145 forks source link

Modificar fonte de consulta por CPF na página de Documentos #407

Open berinhard opened 4 years ago

berinhard commented 4 years ago

O dataset Documentos-Brasil foi criado para facilitar e centralizar a busca por documentos (CPF e CNPJ). Apesar desse benefício, esse dataset também introduz um problema dado que ele é difícil de ser gerado porque ele é uma mescla de múltiplas fontes. Por conta disso, ele acaba ficando desatualizado, o que é ruim em termos de integridade dos dados apresentados e disponibilizados pelo Brasil.io.

Esse problema pode ser contornado com a introdução de um identificador universal para as entidades do banco (ver #182). Entretando, como esse é um trabalho maior e mais demorado, precisamos de uma alternativa temporária que minimize esses problemas. O PR #393 resolve esse problema para os CNPJs mudando a busca para ler da tabela Empresa do dataset socios-brasil, mas precisamos realizar algo similar com a busca por CPF também.

A busca por CPF é mais problemática porque não existe um único dataset que possui uma tabela com a maior parte dos CPFs. Portanto para esse essa issue precisamos também decidir qual seriam as fontes ideais para a busca. Inicialmente o @turicas mencionou que bons candidatos seriam os datasets de eleicoes-brasil por conta dos CPFs completos nas candidaturas e no dataset de gastos de governo federal também.

berinhard commented 3 years ago

IMPORTANTE Provavelmente a property que introduzi no PR #424 ou alguam solução similar será necessária nesse caso também.