tec9analisis / CaudalNegro

Repositorio de los códigos y documentación de las actividades
MIT License
0 stars 0 forks source link

UnicodeError #6

Open a-ceron opened 1 year ago

a-ceron commented 1 year ago

Problema: No se pueden leer links que contienen "Ñ"

To do: Solucionarlo


def read_url(url):
  wFile = urllib.request.urlopen(url)
  bytes_stream = BytesIO(wFile.read())
  reader = PyPDF2.PdfReader(bytes_stream)
  return reader.pages[0].extract_text()

url= ' https://candidaturas.ine.mx/documentos/ficha/MANUEL_MUÑOZ_CANO_25283.pdf'

read_url(url)

---------------------------------------------------------------------------

UnicodeEncodeError                        Traceback (most recen
UnicodeEncodeError | leyendo URLs
a-ceron commented 1 year ago

De forma alterna al código presentado en https://github.com/tec9analisis/CaudalNegro/issues/3 se puede usar este otro que reduce el error

import requests
def read_url(url):
    try:
        request = urllib.request.Request(url)
    except Exception as e:
        print(f'Request exception {e}')
        request = requests.url(url)

      wFile = urllib.request.urlopen(request)
      bytes_stream = BytesIO(wFile.read())
      reader = PyPDF2.PdfReader(bytes_stream)
      return reader.pages[0].extract_text()