aphonsoar / Receita_Federal_do_Brasil_-_Dados_Publicos_CNPJ

Dados Públicos de CNPJ disponibilizados pela Receita Federal do Brasil
MIT License
281 stars 128 forks source link

Segmentation fault #42

Closed GoldenSharkStudio closed 1 year ago

GoldenSharkStudio commented 1 year ago

Bom dia, hoje tive um problema diferente, os arquivos precisam sempre serem baixados de novo, apaguei todos e rodei o código e deu esse erro abaixo.

###############################

Arquivos de ESTABELECIMENTO:

###############################

Trabalhando no arquivo: K3241.K03200Y0.D30408.ESTABELE [...] estabelecimento 99.98% 13348864/13351096Arquivo K3241.K03200Y0.D30408.ESTABELE inserido com sucesso no banco de dados! Trabalhando no arquivo: K3241.K03200Y3.D30408.ESTABELE [...] estabelecimento 82.29% 3911680/4753435Segmentation fault (core dumped)

italojohnny commented 1 year ago

Imagino que o problema anterior reportado por voce na issue #41 foi resolvido com a sugestao. Correto? Poderia informar isso la?

Sobre os arquivos sempre serem baixados de novo, isso esta sendo tratado na issue #39

Sobre o problema Segmentation fault (core dumped) poderia dar mais detalhes?

GoldenSharkStudio commented 1 year ago

Boa tarde, esse problema ocorreu quando eu estava tentando baixar os arquivos, estou fazendo o download novamente, caso aconteça vou tentar dar mais detalhes.

GoldenSharkStudio commented 1 year ago

Bom dia, estou tentando baixar o banco no windows dessa vez e estou encontrando o seguinte problema: Traceback (most recent call last): File "E:\Receita_Federal_doBrasil-_Dados_Publicos_CNPJ\code\ETL_coletar_dados_e_gravar_BD.py", line 316, in estabelecimento = pd.read_csv(filepath_or_buffer=extracted_file_path, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Python311\Lib\site-packages\pandas\io\parsers\readers.py", line 912, in read_csv return _read(filepath_or_buffer, kwds) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Python311\Lib\site-packages\pandas\io\parsers\readers.py", line 583, in _read return parser.read(nrows) ^^^^^^^^^^^^^^^^^^ File "C:\Python311\Lib\site-packages\pandas\io\parsers\readers.py", line 1704, in read ) = self._engine.read( # type: ignore[attr-defined] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Python311\Lib\site-packages\pandas\io\parsers\c_parser_wrapper.py", line 234, in read chunks = self._reader.read_low_memory(nrows) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "pandas_libs\parsers.pyx", line 814, in pandas._libs.parsers.TextReader.read_low_memory File "pandas_libs\parsers.pyx", line 875, in pandas._libs.parsers.TextReader._read_rows File "pandas_libs\parsers.pyx", line 850, in pandas._libs.parsers.TextReader._tokenize_rows File "pandas_libs\parsers.pyx", line 861, in pandas._libs.parsers.TextReader._check_tokenize_status File "pandas_libs\parsers.pyx", line 2029, in pandas._libs.parsers.raise_parser_error pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at row 4752584

Saberia me informar o que está errado?

italojohnny commented 1 year ago

Fiz uma pesquisa rapida aqui e, aparentemente o problema acontence por causa de encoding do arquivo. O erro ainda indica que aconteceu em um dado do registro na linha 4752584, provavelmente do arquivo estabelecimento.

Voce consegue verificar se seu Windows suporta o encoding usado para ler o arquivo?

GoldenSharkStudio commented 1 year ago

Desculpe a ignorância, mas como faço isso? Estou usando o Windows 10 Pro em português.

GoldenSharkStudio commented 1 year ago

Boa noite, eu excluí todos os arquivos e baxei novamente, isso corrigiu o problema.

italojohnny commented 1 year ago

Lamento por nao responder a pergunta anterior... Eu nao tinha como testar no windows e nao sabia a resposta. Sobre sua ultima mensagem... aparentemente nao deve ser o codigo entao. Ou nao? Voce fez algo a mais alem de baixar de novo?

GoldenSharkStudio commented 1 year ago

Bom dia, acredito que o erro tenha sido causado por uma instabilidade na rede quando estava sendo baixado os arquivos.