turicas / socios-brasil

Captura os dados de sócios das empresas brasileiras na Receita Federal e exporta para um formato legível por humanos
https://brasil.io/dataset/socios-brasil
GNU Lesser General Public License v3.0
563 stars 132 forks source link

Importar CNAEs através da API do IBGE #36

Open endersonmaia opened 4 years ago

endersonmaia commented 4 years ago

Vi que o arquivo cnae.py faz scraping na página do IBGE.

Existe uma API do IBGE para os CNAEs que certamente será bem mais simples e rápido de buscar.

https://servicodados.ibge.gov.br/api/docs/cnae?versao=2#api-Classes-classesGet

endersonmaia commented 4 years ago

fiz um script com curl, jq e sqlite: https://github.com/endersonmaia/ibge-cnae-sql

RobsonBranco commented 4 years ago

Onde está o ./run-cnae.sh ?

endersonmaia commented 4 years ago

A documentação faz referência a este arquivo, mas ele não existe no repositório, talvez seja o cnae.py.

turicas commented 4 years ago

Vi que o arquivo cnae.py faz scraping na página do IBGE.

Existe uma API do IBGE para os CNAEs que certamente será bem mais simples e rápido de buscar.

https://servicodados.ibge.gov.br/api/docs/cnae?versao=2#api-Classes-classesGet

Muito bom! Acho que podemos transformar o spider atual em um que pega apenas desse endpoint na API do IBGE e faz as conversões necessárias. Você sabe me dizer se na API tem todas as versões do CNAE? Na base de dados da Receita Federal existem CNAEs de todas as versões e, para isso, precisamos de todas (o script que faz scraping pega de todas as disponíveis).

endersonmaia commented 4 years ago

Você sabe me dizer se na API tem todas as versões do CNAE?

A documentação faz referência à versào 2.0 de 2007.

Exceptuando as subclasses, que estão na versão 2.2, a presente versão 2.0, resultante da revisão 2007, substituiu a 1.0. Essa versão é uma classificação organizada de forma hierárquica com cinco níveis, 21 seções, 87 divisões, 285 grupos, 673 classes e 1301 subclasses. As subclasses são definidas para uso da Administração Pública.