aphonsoar / Receita_Federal_do_Brasil_-_Dados_Publicos_CNPJ

Dados Públicos de CNPJ disponibilizados pela Receita Federal do Brasil
MIT License
253 stars 108 forks source link

Bug na leitura e separação das listas de arquivos #36

Open ormastroni opened 1 year ago

ormastroni commented 1 year ago

Percebi que quando você faz a separação dos arquivos nas lista individuais, você compara Items[i].find(''). Porém, todas as strings das inciciais dos arquivos estão em maiúsculo, mas os arquivos são lidos do EXTRACTED_FILES em formato minúsculo (apenas a primeira letra maiúscula). Basta aplicar um upper() antes do find()

aphonsoar commented 1 year ago

Oi @ormastroni obrigado pelo comentario. os arquivos dentro dos zips baixados do site da receita (http://200.152.38.155/CNPJ/) estao em uppercase (padrao dos arquivos), por isso a string dentro do find() esta assim tambem - mas de fato a sua dica includingo o upper() tambem faz sentido.

No entanto, mesmo da forma como esta, vc teve algum problema para executar o codigo ou isso eh uma sugestao de melhoria apenas? Obrigado.

ormastroni commented 1 year ago

Oi @aphonsoar tive problema na execução sim, porque os arquivos foram lidos da url e baixados com apenas o primeiro caractere maiúsculo. Quando eu executei a primeira vez, rodou muito rápido e achei estranho. Aí fui depurar e vi que naquela parte do código onde vc faz a separação dos arquivos em listas separadas pelo tipo de dado (empresa, cnae, etc.), ele passava direto por ali porque as comparações eram feitas com os nomes em maiúsculo, e aí ele não entrava no if. Eu acrescentei o upper e funcionou.

aphonsoar commented 1 year ago

Certo. Provavelmente algum mes especifico eles (RFB) devem ter liberado os arquivos com nomenclatura fora do padrao e vc teve o problema. Mas essa alteracao eh simples de ser implementada, vou deixar aqui no backlog pra arrumar.