IIC2115 / Syllabus-2020-2

Repositorio oficial del curso IIC2115 - Programación como Herramienta para la ingeniería - Segundo Semestre 2020
11 stars 29 forks source link

WebScrapping y Regex #192

Closed lcoronata closed 3 years ago

lcoronata commented 3 years ago

Si mi link tiene dos tablas y ambas se referencian con el 'td', pero yo solo quiero la información de una de ellas. Es valido hacer a mi lista resultante lista[:52] para cortarla por ejemplo? o también es parte de regex obtener ese caso especifico de info desde mi tabla de webscrapping?

pcseisdedos commented 3 years ago

Si es válido hacer slices de este tipo, mientras no saques la información solo a partir de hacer slices o cosas por el estilo.

Saludos, Pablo 😁👍

lcoronata commented 3 years ago

Bacaaan, gracias. Y a partir del slice utilizo regex para obtener los datos que necesito, pero si luego de eso necesito dividir mi lista resultante en una lista de listas eso también se hace con alguna funcionalidad de regex? o para eso ya puedo hacer una función simple de iteraciones?

pelayouc commented 3 years ago

up

pcseisdedos commented 3 years ago

Deben ocupar pyrematch y/o bs4 para extraer la información que deseen. lo que hagan luego de esto lo definen ustedes. Pueden meterlo a un dataframe como vimos en la ayudantía, también en diccionarios o listas de listas.

Saludos, Pablo 😁👍

pcseisdedos commented 3 years ago

Eso sí recuerden cumplir con lo que se pide en el enunciado finalmente.

Giovinco24 commented 3 years ago

@pcseisdedos entonces se puedo usar solo bs4 y no pyrematch como lo hizo el profe en la materia de webscrapping? Por ejemplo yo saque mi tabla utilizando bs4 y eso me entrego una lista, entonces puedo hacer operaciones de python sobre esa lista para sacar lo que necesito de la lista descargada?

pcseisdedos commented 3 years ago

Encontrar la información que necesitan no puede estar basado estructuralmente en slices o cosas por el estilo, pueden ocuparlo para cosas puntuales, pero no de forma sistemática para filtrar la información.

Saludos, Pablo 😁👍

Giovinco24 commented 3 years ago

@pcseisdedos Perdón por preguntar de nuevo, pero la pregunta es si es obligación usar pyrematch o si se puede usar solamente bs4, porque despues de usar bs4 hago solo 2 slices? Además, en la pagina web que estoy trabajando al poner el class no me lee nada el programa, entonces tengo que leerlo con la función webdownloader de clases que me crea una lista y pyrematch no funciona en listas. Igualmente mi duda es si es que hay que usar pyrematch si o si.

pcseisdedos commented 3 years ago

No es obligatorio ocupar pyrematch, puedes ocupar bs4 solamente si lo deseas.

Saludos, Pablo 😁👍