turicas / socios-brasil

Captura os dados de sócios das empresas brasileiras na Receita Federal e exporta para um formato legível por humanos
https://brasil.io/dataset/socios-brasil
GNU Lesser General Public License v3.0
561 stars 132 forks source link

Complementar dados com dados de fornecedores #8

Closed augusto-herrmann closed 5 years ago

augusto-herrmann commented 6 years ago

Os dados de compras públicas do governo federal possuem informações adicionais sobre pessoas jurídicas (e até sobre pessoas físicas), considerando o subconjunto das empresas e pessoas que são fornecedores do governo federal ou se cadastraram para participar de licitações.

Os dados poderiam ser usados para corrigir os erros na razão social das empresas sócias que existem no dataset da Receita. Poderiam também trazer informações complementares que não existem no dataset da Receita: CNAE, porte da empresa e município.

A documentação da consulta está em http://compras.dados.gov.br/docs/fornecedores/v1/fornecedores.html

São pouco mais de 300 mil empresas, mas pelo menos para essas é possível obter mais informações.

kpazfagundes commented 5 years ago

Augusto, as receitas estaduais possuem dados complementares aos da RF sobre os CNPJ's (http://www.sintegra.gov.br), vocês já tentaram pegar os dados com eles?

cptx032 commented 5 years ago

cc @kpazfagundes Pesquisei rapidamente na internet e encontrei o site https://www.sintegraws.com.br. Parece que eles vendem tokens de acesso, mas os endpoints:

https://www.sintegraws.com.br/api/v1/api-cnpj.php?q=06990590000123 https://www.sintegraws.com.br/api/v1/execute-api-simples.php?cnpj=06990590000123&plugin=ST https://www.sintegraws.com.br/api/v1/execute-api-simples.php?cnpj=06990590000123&plugin=SN

estão todos liberados para acesso sem token, eu fiz 50 requisições com um delay de 1 segundo e não houve nenhum bloqueio 429 ou coisa similar.

augusto-herrmann commented 5 years ago

É uma boa referência, @kpazfagundes. Mas, pelo que eu vi, o site apresenta links para as consultas das secretarias de fazenda estaduais, que em sua maioria são apenas formulários html assim como o da receita. Pelo menos o do Distrito Federal não tem captcha, o que facilitaria uma raspagem. Teria que saber qual CNPJ consultar em qual estado, ou consultar todos em todos os estados, com um grande volume de consultas para CNPJ não cadastrado no estado. Mas é uma opção que pode ser viável, embora trabalhosa por ter que fazer um scraper diferente para cada unidade da federação.

@cptx032, sua sugestão também é interessante, mas fiquei na dúvida quanto à confiabilidade dos dados se não é uma fonte oficial. O domínio é .com.br e na página "sobre o SintegraWS" não tem quase nenhuma informação, nem mesmo o nome e CNPJ da empresa que oferece o serviço. Tecnicamente, eles também erram ao servir JSON com o content type de text/html. Não que isso impeça de usar o serviço.

turicas commented 5 years ago

Pessoal, estou fechando essa issue pois com a versão nova do dump da Receita Federal já temos os CNAEs, porte da empresa e endereço - só precisamos conferir os dados extraídos (por conta de inconsistências), mas não precisamos mais buscar os dados em outro dataset. Já conversei com o @augusto-herrmann e ele vai sugerir a lista de fornecedores como um novo dataset no Brasil.IO, que aí poderemos cruzar com esse. :)

augusto-herrmann commented 5 years ago

O novo dump disponibilizado pela Receita Federal possui o CNAE, endereço e outras informações, não sendo mais necessária a complementação sugerida aqui.

Talvez o dataset de fornecedores possa vir a ser um novo dataset no Brasil.io, caso volte a ser atualizado na fonte oficial.