JJ / SerU

Arquitectura de servicios web para usuarios de una institución académica.
Apache License 2.0
13 stars 0 forks source link

Scraper de eventos canal UGR #9

Closed nacheteam closed 7 years ago

nacheteam commented 7 years ago

He hecho un scraper que recoge la información de la lista de eventos de la agenda del canal UGR. Obtiene sólo el título, la fecha y los links pero en un futuro estaría bien quizás obtener la imagen asociada al evento para que quede más bonito como aquí.

angrykoala commented 7 years ago

@JJ quizás tendrá que revisar esto en algún momento ya que no sé nada de scrapers, por mi parte parece que está todo bien, aunque tengo las siguientes propuestas si te parecen bien @nacheteam :

nacheteam commented 7 years ago

He solventado todo esto:

  • Si estás usando dependencias externas (beautifulsoup), estaría bien añadirlas a un archivo requirements.txt para que sea fácil instalarlas cuando queramos desplegarlo
  • ¿Sería posible añadir un poco de estructura al scraper?, bien usando una clase, o separándolo en varias funciones, por ejemplo una para la request, otra para "leer" el html y otra para generar el json (es un ejemplo, tu sabrás mejor como dividir el codigo)
  • Los links (e.g. https://canal.ugr.es/agenda/semana/) y otros strings quizás podrían ser variables constantes definidas al principio, para facilitar adaptar el scraper más adelante

Con el último punto he tenido problemas porque creo que la línea # -*- coding: utf-8 -*- añade soporte UTF-8 sólo al código que escribo y el problema de codificación lo tengo con las cadenas que manejo de la web. En concreto el problema está (o al menos eso creo) con los hipervínculos. La solución que he encontrado es esa pero como comenta @angrykoala quizás esa no sea la mejor.

JJ commented 7 years ago

Perdonadme, he andado muy liado. Lo reviso de todas formas. Muchas gracias por tu aportación, excelente trabajo.