Closed nacheteam closed 7 years ago
@JJ quizás tendrá que revisar esto en algún momento ya que no sé nada de scrapers, por mi parte parece que está todo bien, aunque tengo las siguientes propuestas si te parecen bien @nacheteam :
requirements.txt
para que sea fácil instalarlas cuando queramos desplegarlohttps://canal.ugr.es/agenda/semana/
) y otros strings quizás podrían ser variables constantes definidas al principio, para facilitar adaptar el scraper más adelante# Change encoding to UTF8
es necesaria? La verdad es que nunca había visto esa forma de definir el encoding y no estoy seguro de si es la forma recomendableHe solventado todo esto:
- Si estás usando dependencias externas (beautifulsoup), estaría bien añadirlas a un archivo requirements.txt para que sea fácil instalarlas cuando queramos desplegarlo
- ¿Sería posible añadir un poco de estructura al scraper?, bien usando una clase, o separándolo en varias funciones, por ejemplo una para la request, otra para "leer" el html y otra para generar el json (es un ejemplo, tu sabrás mejor como dividir el codigo)
- Los links (e.g. https://canal.ugr.es/agenda/semana/) y otros strings quizás podrían ser variables constantes definidas al principio, para facilitar adaptar el scraper más adelante
Con el último punto he tenido problemas porque creo que la línea # -*- coding: utf-8 -*-
añade soporte UTF-8 sólo al código que escribo y el problema de codificación lo tengo con las cadenas que manejo de la web. En concreto el problema está (o al menos eso creo) con los hipervínculos. La solución que he encontrado es esa pero como comenta @angrykoala quizás esa no sea la mejor.
Perdonadme, he andado muy liado. Lo reviso de todas formas. Muchas gracias por tu aportación, excelente trabajo.
He hecho un scraper que recoge la información de la lista de eventos de la agenda del canal UGR. Obtiene sólo el título, la fecha y los links pero en un futuro estaría bien quizás obtener la imagen asociada al evento para que quede más bonito como aquí.