Closed augusto-herrmann closed 5 years ago
Augusto, as receitas estaduais possuem dados complementares aos da RF sobre os CNPJ's (http://www.sintegra.gov.br), vocês já tentaram pegar os dados com eles?
cc @kpazfagundes Pesquisei rapidamente na internet e encontrei o site https://www.sintegraws.com.br. Parece que eles vendem tokens de acesso, mas os endpoints:
https://www.sintegraws.com.br/api/v1/api-cnpj.php?q=06990590000123 https://www.sintegraws.com.br/api/v1/execute-api-simples.php?cnpj=06990590000123&plugin=ST https://www.sintegraws.com.br/api/v1/execute-api-simples.php?cnpj=06990590000123&plugin=SN
estão todos liberados para acesso sem token, eu fiz 50 requisições com um delay de 1 segundo e não houve nenhum bloqueio 429 ou coisa similar.
É uma boa referência, @kpazfagundes. Mas, pelo que eu vi, o site apresenta links para as consultas das secretarias de fazenda estaduais, que em sua maioria são apenas formulários html assim como o da receita. Pelo menos o do Distrito Federal não tem captcha, o que facilitaria uma raspagem. Teria que saber qual CNPJ consultar em qual estado, ou consultar todos em todos os estados, com um grande volume de consultas para CNPJ não cadastrado no estado. Mas é uma opção que pode ser viável, embora trabalhosa por ter que fazer um scraper diferente para cada unidade da federação.
@cptx032, sua sugestão também é interessante, mas fiquei na dúvida quanto à confiabilidade dos dados se não é uma fonte oficial. O domínio é .com.br e na página "sobre o SintegraWS" não tem quase nenhuma informação, nem mesmo o nome e CNPJ da empresa que oferece o serviço. Tecnicamente, eles também erram ao servir JSON com o content type de text/html. Não que isso impeça de usar o serviço.
Pessoal, estou fechando essa issue pois com a versão nova do dump da Receita Federal já temos os CNAEs, porte da empresa e endereço - só precisamos conferir os dados extraídos (por conta de inconsistências), mas não precisamos mais buscar os dados em outro dataset. Já conversei com o @augusto-herrmann e ele vai sugerir a lista de fornecedores como um novo dataset no Brasil.IO, que aí poderemos cruzar com esse. :)
O novo dump disponibilizado pela Receita Federal possui o CNAE, endereço e outras informações, não sendo mais necessária a complementação sugerida aqui.
Talvez o dataset de fornecedores possa vir a ser um novo dataset no Brasil.io, caso volte a ser atualizado na fonte oficial.
Os dados de compras públicas do governo federal possuem informações adicionais sobre pessoas jurídicas (e até sobre pessoas físicas), considerando o subconjunto das empresas e pessoas que são fornecedores do governo federal ou se cadastraram para participar de licitações.
Os dados poderiam ser usados para corrigir os erros na razão social das empresas sócias que existem no dataset da Receita. Poderiam também trazer informações complementares que não existem no dataset da Receita: CNAE, porte da empresa e município.
A documentação da consulta está em http://compras.dados.gov.br/docs/fornecedores/v1/fornecedores.html
São pouco mais de 300 mil empresas, mas pelo menos para essas é possível obter mais informações.