O dataset Documentos-Brasil foi criado para facilitar e centralizar a busca por documentos (CPF e CNPJ). Apesar desse benefício, esse dataset também introduz um problema dado que ele é difícil de ser gerado porque ele é uma mescla de múltiplas fontes. Por conta disso, ele acaba ficando desatualizado, o que é ruim em termos de integridade dos dados apresentados e disponibilizados pelo Brasil.io.
Esse problema pode ser contornado com a introdução de um identificador universal para as entidades do banco (ver #182). Entretando, como esse é um trabalho maior e mais demorado, precisamos de uma alternativa temporária que minimize esses problemas. O PR #393 resolve esse problema para os CNPJs mudando a busca para ler da tabela Empresa do dataset socios-brasil, mas precisamos realizar algo similar com a busca por CPF também.
A busca por CPF é mais problemática porque não existe um único dataset que possui uma tabela com a maior parte dos CPFs. Portanto para esse essa issue precisamos também decidir qual seriam as fontes ideais para a busca. Inicialmente o @turicas mencionou que bons candidatos seriam os datasets de eleicoes-brasil por conta dos CPFs completos nas candidaturas e no dataset de gastos de governo federal também.
O dataset Documentos-Brasil foi criado para facilitar e centralizar a busca por documentos (CPF e CNPJ). Apesar desse benefício, esse dataset também introduz um problema dado que ele é difícil de ser gerado porque ele é uma mescla de múltiplas fontes. Por conta disso, ele acaba ficando desatualizado, o que é ruim em termos de integridade dos dados apresentados e disponibilizados pelo Brasil.io.
Esse problema pode ser contornado com a introdução de um identificador universal para as entidades do banco (ver #182). Entretando, como esse é um trabalho maior e mais demorado, precisamos de uma alternativa temporária que minimize esses problemas. O PR #393 resolve esse problema para os CNPJs mudando a busca para ler da tabela
Empresa
do datasetsocios-brasil
, mas precisamos realizar algo similar com a busca por CPF também.A busca por CPF é mais problemática porque não existe um único dataset que possui uma tabela com a maior parte dos CPFs. Portanto para esse essa issue precisamos também decidir qual seriam as fontes ideais para a busca. Inicialmente o @turicas mencionou que bons candidatos seriam os datasets de
eleicoes-brasil
por conta dos CPFs completos nas candidaturas e no dataset de gastos de governo federal também.