In this section we would explain the main libraries that we use for web scraping, and how to deal with large amounts of data from the websites.
Main challenges and limitations
In this section we would explain the main challanges and limitations that we face in Transparent when building an scraper. Some of them are avoiding being banned by the websites. Other challanges might be related to setting the proper HTTP headers depending on the scraped website.
Live scraping demo: Find your dream flat scrapping Idealista
The idea is to show a demo of a web scraper for Idealista, in order to find listings owned by landlords and not by real state agencies. We would prepare a small repository and run the scraping process to show the final results.
Herramientas para construir un scraper escalable
En esta sección explicaríamos las librerías principales que utilizamos para el scraping de la web y cómo tratar con cantidades grandes de datos de los sitios web.
Principales retos y limitaciones
En esta sección explicaríamos los principales desafíos y limitaciones a los que nos enfrentamos en Transparent al construir un scraper. Algunos de los retos son evitar ser baneado por los sitios web. Otros retos podrían estar relacionados con el establecimiento de las cabezeras HTTP adecuadas dependiendo del sitio web escrapeado.
Presentación de scraping: Encuentra tu piso soñado escrapeando idealista
La idea es mostrar una demostración de un scraper de web para Idealista, con el fin de encontrar listados de pisos por propietarios y no por agencias de immuebles. Prepararíamos un pequeño repositorio y ejecutaríamos el proceso de scraping para mostrar los resultados finales.
Speaker Bios / Bio de los Ponentes
Julian Toledo
Desarrollador full stack Javascript durante 4 años. Ex profesor de NodeJS en redradix school. Amanate de los anacardos y el ciclismo de montaña.
Level / Nivel
Intermediate / Intermedio
Duration / Duración
15 min introduction + 45 min talk + 45 min networking (with pizza and beers)
Location / localizacion
The Tribe - Jerónimo!
Carrera de S. Jerónimo, 17, 28014 Madrid
Title / Título
How to scrap listing pages using node.js
Como escrapear paginas de listados en node.js
Description / Descripción
Tools to build an scalable scraper
In this section we would explain the main libraries that we use for web scraping, and how to deal with large amounts of data from the websites.
Main challenges and limitations
In this section we would explain the main challanges and limitations that we face in Transparent when building an scraper. Some of them are avoiding being banned by the websites. Other challanges might be related to setting the proper HTTP headers depending on the scraped website.
Live scraping demo: Find your dream flat scrapping Idealista
The idea is to show a demo of a web scraper for Idealista, in order to find listings owned by landlords and not by real state agencies. We would prepare a small repository and run the scraping process to show the final results.
Herramientas para construir un scraper escalable
En esta sección explicaríamos las librerías principales que utilizamos para el scraping de la web y cómo tratar con cantidades grandes de datos de los sitios web.
Principales retos y limitaciones
En esta sección explicaríamos los principales desafíos y limitaciones a los que nos enfrentamos en Transparent al construir un scraper. Algunos de los retos son evitar ser baneado por los sitios web. Otros retos podrían estar relacionados con el establecimiento de las cabezeras HTTP adecuadas dependiendo del sitio web escrapeado.
Presentación de scraping: Encuentra tu piso soñado escrapeando idealista
La idea es mostrar una demostración de un scraper de web para Idealista, con el fin de encontrar listados de pisos por propietarios y no por agencias de immuebles. Prepararíamos un pequeño repositorio y ejecutaríamos el proceso de scraping para mostrar los resultados finales.
Speaker Bios / Bio de los Ponentes
Julian Toledo
Desarrollador full stack Javascript durante 4 años. Ex profesor de NodeJS en redradix school. Amanate de los anacardos y el ciclismo de montaña.
Level / Nivel
Intermediate / Intermedio
Duration / Duración
15 min introduction + 45 min talk + 45 min networking (with pizza and beers)
Location / localizacion
The Tribe - Jerónimo! Carrera de S. Jerónimo, 17, 28014 Madrid
Fechas disponibles / Available dates:
2017-10-03 (with most priority)
2017-10-04
2017-10-10
2017-10-11