aphonsoar / Receita_Federal_do_Brasil_-_Dados_Publicos_CNPJ

Dados Públicos de CNPJ disponibilizados pela Receita Federal do Brasil
MIT License
253 stars 108 forks source link

Erro no meio do processo. #24

Closed GleisonSette closed 1 year ago

GleisonSette commented 2 years ago

Boa tarde! Deu um pico de internet no arquivo 33 e acredito que foi cancelado a operação conforme o que ele relatou:

`Downloading: 61% [214335488 / 350698435] bytes - Traceback (most recent call last): File "C:\Hunter_CNPJ\code\ETL_coletar_dados_e_gravar_BD.py", line 87, in wget.download(url, out=output_files, bar=bar_progress) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\wget.py", line 526, in download (tmpfile, headers) = ulib.urlretrieve(binurl, tmpfile, callback) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\urllib\request.py", line 270, in urlretrieve block = fp.read(bs) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\http\client.py", line 465, in read s = self.fp.read(amt) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\socket.py", line 705, in readinto return self._sock.recv_into(b) ConnectionAbortedError: [WinError 10053] Uma conexão estabelecida foi anulada pelo software no computador host

C:\Hunter_CNPJ\code>`

Como faço para retomar o download de onde parou, visto que se eu executar ele novamente ele vai reiniciar tudo do zero?

GleisonSette commented 2 years ago

Eu so entendo de logica de programação... por isso não sei resolver... mas consegui fazer uma gambiarra no codigo:

`# Download arquivos ################################################################################################################################ i_l = 32 for l in Files:

Download dos arquivos

i_l += 1
print('Baixando arquivo:')
print(str(i_l) + ' - ' + l)
url = dados_rf+l
wget.download(url, out=output_files, bar=bar_progress)`

i_l = 0 #####original i_l = 32 #### modificado.


Como usar o if/else nesse caso?

Se tiver baixado pula, se não fazer download?

GleisonSette commented 2 years ago

O processo que fiz acima não funcionou.. :(

GleisonSette commented 2 years ago

Bom dia... iniciei todo o processo novamente, agora ele conseguiu baixar tudo, descompactar e parou nessa parte:

`#######################

Arquivos de EMPRESA:

#######################

Trabalhando no arquivo: K3241.K03200Y0.D20514.EMPRECSV [...] Traceback (most recent call last): File "C:\Hunter_CNPJ\code\ETL_coletar_dados_e_gravar_BD.py", line 196, in empresa = pd.read_csv(filepath_or_buffer=extracted_file_path, File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\util_decorators.py", line 311, in wrapper return func(*args, **kwargs) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\parsers\readers.py", line 680, in read_csv return _read(filepath_or_buffer, kwds) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\parsers\readers.py", line 581, in _read return parser.read(nrows) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\parsers\readers.py", line 1254, in read index, columns, col_dict = self._engine.read(nrows) File "C:\Users\gleis\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\parsers\c_parser_wrapper.py", line 225, in read chunks = self._reader.read_low_memory(nrows) File "pandas_libs\parsers.pyx", line 805, in pandas._libs.parsers.TextReader.read_low_memory File "pandas_libs\parsers.pyx", line 861, in pandas._libs.parsers.TextReader._read_rows File "pandas_libs\parsers.pyx", line 847, in pandas._libs.parsers.TextReader._tokenize_rows File "pandas_libs\parsers.pyx", line 1952, in pandas._libs.parsers.raise_parser_error UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 136039: invalid continuation byte

C:\Hunter_CNPJ\code>'`

Se alguém puder me ajudar com um processo que faz ele retomar de onde parou ficarei muito grato.

Rodrigojxj commented 1 year ago

muda o encoding para ISO-8859-1

aphonsoar commented 1 year ago

Resolvido por esse PR: https://github.com/aphonsoar/Receita_Federal_do_Brasil_-_Dados_Publicos_CNPJ/pull/28