IIC2115 / Syllabus-2022-1

Syllabus del curso IIC2115 - Programación como Herramienta para la Ingeniería 2022/I
8 stars 22 forks source link

L4: UnicodeEncodeError al hacer Web Scrapping #26

Open dbobadilla8 opened 2 years ago

dbobadilla8 commented 2 years ago

Estoy usando diferentes links para obtener la información de los profesores de Ingeniería de la universidad, pero 8 de 10 links de los departamentos me tira el siguiente error: _UnicodeEncodeError: 'ascii' codec can't encode character '\xf3' in position 156: ordinal not in range(128)_. Cabe destacar que entre links varía el character que no puede codificar. El usado en este caso es:

Link: "https://www.ing.uc.cl/academicos-e-investigacion/academicos-e-investigadores/?bloques=academicos-e-investigadores&prof_area_academica=Departamento+de+Ingenier%C3%ADa+y+Gestión+de+la+Construcción&prof_jornada=Completa&ss="

El que estoy trabajando como objeto WebDownloader(link), definido en el Notebook de clase de Web Scrapping del curso.

He perdido bastante tiempo buscando el error en Stack Overflow y otras páginas y todavía no encuentro una solución al problema.

Muchas gracias de antemano.

Quejas y reclamos vía mail a iic2115@ing.puc.cl.

Michelmagna commented 2 years ago

Hola! Probaste lo que mencionan en estas issues? En la primera, en los comentarios entregan un tip para el caso. En la segunda, una solución validada. Cuéntame que tal.

Saludos!

https://stackoverflow.com/questions/43709653/beautifulsoup-unicodeencodeerror-ascii-codec

https://stackoverflow.com/questions/29688440/python-beautiful-soup-ascii-codec-cant-encode-character-u-xa5/29688681

dbobadilla8 commented 2 years ago

Gracias! Recién hoy día me pude percatar que el error se debía a los tildes que se presentaban en los links de los profesores de cada departamento. Lo solucioné codificando cada url con la función urllib.parse.quote. Saludos