NodeJsMadrid / talks

Send an issue to propose a talk
15 stars 3 forks source link

How to scrap listing pages using node.js #27

Closed lienbcn closed 6 years ago

lienbcn commented 7 years ago

Title / Título


How to scrap listing pages using node.js


Como escrapear paginas de listados en node.js

Description / Descripción


Tools to build an scalable scraper

In this section we would explain the main libraries that we use for web scraping, and how to deal with large amounts of data from the websites.

Main challenges and limitations

In this section we would explain the main challanges and limitations that we face in Transparent when building an scraper. Some of them are avoiding being banned by the websites. Other challanges might be related to setting the proper HTTP headers depending on the scraped website.

Live scraping demo: Find your dream flat scrapping Idealista

The idea is to show a demo of a web scraper for Idealista, in order to find listings owned by landlords and not by real state agencies. We would prepare a small repository and run the scraping process to show the final results.


Herramientas para construir un scraper escalable

En esta sección explicaríamos las librerías principales que utilizamos para el scraping de la web y cómo tratar con cantidades grandes de datos de los sitios web.

Principales retos y limitaciones

En esta sección explicaríamos los principales desafíos y limitaciones a los que nos enfrentamos en Transparent al construir un scraper. Algunos de los retos son evitar ser baneado por los sitios web. Otros retos podrían estar relacionados con el establecimiento de las cabezeras HTTP adecuadas dependiendo del sitio web escrapeado.

Presentación de scraping: Encuentra tu piso soñado escrapeando idealista

La idea es mostrar una demostración de un scraper de web para Idealista, con el fin de encontrar listados de pisos por propietarios y no por agencias de immuebles. Prepararíamos un pequeño repositorio y ejecutaríamos el proceso de scraping para mostrar los resultados finales.

Speaker Bios / Bio de los Ponentes

Julian Toledo

Desarrollador full stack Javascript durante 4 años. Ex profesor de NodeJS en redradix school. Amanate de los anacardos y el ciclismo de montaña.

Level / Nivel

Intermediate / Intermedio

Duration / Duración

15 min introduction + 45 min talk + 45 min networking (with pizza and beers)

Location / localizacion

The Tribe - Jerónimo! Carrera de S. Jerónimo, 17, 28014 Madrid

Fechas disponibles / Available dates:

2017-10-03 (with most priority)

2017-10-04

2017-10-10

2017-10-11

alexfernandez commented 6 years ago

¡Hecha! Gracias, @lienbcn 😸