Open rv-alberto opened 3 years ago
Obrigado por reportar. Vou verificar.
Olá, @rv-alberto Qual script você usou para gerar a consulta? E com base em qual informação você acha que deveria ter milhões de registros na combinação de pesquisa que você quer fazer? Você já tentou fazer a mesma pesquisa nas bases mais antigas disponibilizadas no README para comprar os resultados?
George, rodei aqui com a base de 04/jul também, veja o resultado de cruzar as colunas "situação cadastral" e "opção pelo mei". Em julho havia 5.252.179 linhas na intersecção de "situação cadastral: 8" e "opção pelo MEI: S". Em setembro cai para 1.967.
Base de julho:
1 2 3 4 8
1401 1106814 17344 163727 1223607
N 75208 9126028 145524 3255352 13194478
S 2803 10852102 5441 45060 5252179
Base de setembro:
1 2 3 4 8
1420 1115450 17438 162198 1235873
N 78608 9768729 147602 3260847 18630507
S 98 10728239 3951 837 1967
O código foi basicamente carregar os dados (usei R) e cruzar essas colunas usando a função table()
.
cnpj_0 <- fread(file = "cnpj_dados_cadastrais_pj.csv",
sep = "#",
select = c(4, 8, 9, 14, 15, 16, 23, 36))
table(cnpj_0$opcao_pelo_mei, cnpj_0$situacao_cadastral)
Já vi algumas funções terem dificuldade de carregar a base da RFB, mas usando a fread()
nunca tive problema. Esses números que eu cheguei estão corretos?
Ok. Obrigado pela resposta. Vou verificar. Att
Olá, @rv-alberto
Fiz algumas análises pelo SQLite e chegamos aos mesmos resultados.
SELECT *
FROM cnpj_dados_cadastrais_pj
WHERE situacao_cadastral = "08" AND opcao_pelo_mei = "S"
Julho: 5.252.179
Setembro: 1.967
Veja. O código de tratamento dos dados não altera esse tipo de informação. Apenas separamos os dados para disponibilizá-los de forma tabula, para pronto uso em sistemas de banco de dados ou softwares de análise. Ou seja, essa informação é originária da base de dados da Receita Federal.
Esse seu achado é curioso, mas deve ter a ver como a Receita Federal cadastra as informações na base dela. Nos dados liberados em julho, constavam 19.670.264 empresas com situacao_cadastral = "08". Já nos dados de setembro, esse valor foi de 19.868.347.
Ao comparar esses dados (situação cadastral) com os dados opcao_pelo_mei, verifica-se que a Receita Federal alterou os dados dos MEI de opcao_pelo_mei = "S" para "N" das pessoas jurídicas em situacao_cadastral = "08". Contudo, não saberia dizer a razão dessa alteração.
Você poderia fazer um pedido de acesso à informação na Receita Federal questionando essa questão e nos informar qual foi a resposta?
Excelente George, eu imaginava que o problema pudesse estar na base original da RFB mesmo. Mandei uma solicitação de informações, recebendo a resposta coloco aqui. Obrigado!
Maravilha.
Se identificar mais alguma coisa, é só abrir uma issue.
Vou deixar essa issue aberta até você informar a resposta da Receita Federal, ok?
No mais, se puder, deixe um comentário no tópico: Por que a base de dados do CNPJ é importante para você? Link
George, recebi uma resposta pelo Fala.BR:
"Prezado(a), boa tarde, informa-se por meio desta ouvidoria que foi feito um batimento das informações constantes no Portal do Simples Nacional, e foram verificadas inconsistências quanto às opções pelo SN e MEI, e a extração de Setembro é a mais atualizada."
Não sei se eles entenderam o problema. Pela alteração nas bases, quase todos os MEI que estavam na "situação_cadastral" 8 e 4 foram reclassificados na coluna "opção_pelo_mei", passando de "sim" para "não". Vamos ver como virão as próximas extrações.
Antes de mais nada, parabéns pelo trabalho com esse pacote e muito obrigado por disponibilizar os csv's. É incrível o benefício que está gerando ao facilitar o acesso a esses dados!
Trabalhando com o csv da ultima atualização (set/2020), notei um número muito grande de células vazias na coluna "opção_pelo_mei", que deveria ter valores "S" ou "N". Eu estava procurando a quantidade de MEI na situação cadastral "8" (que significa "baixado") e o resultado foi absurdamente pequeno, se não me engano 225 linhas em toda a base, quando na verdade deveria ter sido algo na casa dos milhões.
Pensei ser algum erro no download ou no carregamento da base que fiz por aqui. Mas repeti o processo e deu a mesma coisa. Pode me ajudar a solucionar essa questão?