JuanDDB / FincaRaiz-WE

Este proyecto consiste en una herramienta de web scraping para la extracción de información relevante de ofertas de propiedades en Finca Raiz.
4 stars 3 forks source link

Archivo de URL #1

Closed sanperez closed 1 year ago

sanperez commented 1 year ago

Hola Juan, hablas del archivo obtener_enlaces_totales.py pero no aparece en el directorio principal.

JuanDDB commented 1 year ago

Sii, ya quedó, solo estaban mas los nombres de los scripts

sanperez commented 1 year ago

¿Cómo podría extraerse, antes del precio, el nombre o título de la propiedad? Gracias

JuanDDB commented 1 year ago

En este caso, a que titulo te refieres? image

sanperez commented 1 year ago

Estaba viendo la descripción pero realmnte no tiene sentido. Dos preguntas: Hay una serie de errores mientras se ejecuta:

+++++ [0925/141528.997:ERROR:cert_issuer_source_aia.cc(36)] Error parsing cert retrieved from AIA (as DER): ERROR: Couldn't read tbsCertificate as SEQUENCE ERROR: Failed parsing Certificate

+++++ DevTools listening on ws://127.0.0.1:65279/devtools/browser/757de3b7-9d52-43d0-bdd6-ec5827226bb3 [0925/141519.300:INFO:CONSOLE(10)] "Failed to execute 'write' on 'Document': It isn't possible to write into a document from an asynchronously-loaded external script unless it is explicitly opened.", source: https://securepubads.g.doubleclick.net/tag/js/gpt.js (10) [0925/141525.195:INFO:CONSOLE(1)] "Uncaught (in promise) SyntaxError: Unexpected token '<', "<!DOCTYPE "... is not valid JSON", source: https://www.fincaraiz.com.co/inmueble/apartamento-en-venta/pio-xii/bogota/10211236 (1) [0925/141525.571:INFO:CONSOLE(3)] "Hotjar not launching due to suspicious userAgent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/117.0.5938.92 Safari/537.36", source: https://static.hotjar.com/c/hotjar-2581081.js?sv=7 (3) [0925/141525.572:INFO:CONSOLE(1)] "Uncaught (in promise) SyntaxError: Unexpected token '<', "<!DOCTYPE "... is not valid JSON", source: https://www.fincaraiz.com.co/inmueble/apartamento-en-venta/pio-xii/bogota/10211236 (1) [0925/141526.762:INFO:CONSOLE(1)] "Uncaught TypeError: Cannot read properties of null (reading 'getAttribute')", source: https://js.usemessages.com/conversations-embed.js (1) [0925/141526.898:INFO:CONSOLE(1)] "Uncaught TypeError: Cannot read properties of null (reading 'portalId')", source: https://js.hubspot.com/web-interactives-embed.js (1) [0925/141526.967:INFO:CONSOLE(24)] "[Meta Pixel] - You are sending a non-standard event '[object Object]'. The preferred way to send these events is using trackCustom. See 'https://developers.facebook.com/docs/ads-for-websites/pixel-events/#events' for more information.", source: https://connect.facebook.net/en_US/fbevents.js (24) [0925/141526.968:INFO:CONSOLE(24)] "[Meta Pixel] - Pixel PageView not found", source: https://connect.facebook.net/en_US/fbevents.js (24) [0925/141527.136:ERROR:cert_issuer_source_aia.cc(36)] Error parsing cert retrieved from AIA (as DER): ERROR: Couldn't read tbsCertificate as SEQUENCE ERROR: Failed parsing Certificate +++++

¿Qué puede generarlo?

Finalemnte, y agradezco tu disposición, no sé si hay un error en esta url https://www.fincaraiz.com.co/apartamentos/venta/castilla/zona-occidental/bogota?pagina={pagina} pero me arrojan los mismo resultados que en el ejemplo que tienes en el script original.

De antemano muchas gracias

JuanDDB commented 1 year ago

Estos errores hacen que se te cierre la consola, o se sigue ejecutando, estos scripts siempre muestran muchas advertencias que no impide que se ejecute, no sé si es el caso. Si, el link a mi me funciona normalmente, me podrias pasar el link con el que estas intentando hacer tu propia busqueda, para intentar

sanperez commented 1 year ago

Gracias por responder,

El enlace sería https://www.fincaraiz.com.co/finca-raiz/venta/medellin/antioquia

Te pregunto:

  1. Cuando te hablaba de Titulo, me refería a una descripción del inmueble. No sé si esto sea posible.
  2. Crees que sea necesario el uso de User Agent y Sleep Time?

Nuevo gracias por tus respuestas y la buena disposición.

JuanDDB commented 1 year ago

Con este link me funciona normal: url = f"https://www.fincaraiz.com.co/finca-raiz/venta/medellin/antioquia?pagina={pagina}" image

  1. Sii, se peude sacar la descripcion tambien, el script ese de caracteristicas.py ya se actualizó para que tambien saque esa informacion
  2. No estoy seguro si sea necesario, yo saqué la info de 7000 ofertas en bogotá y funcinó normal
sanperez commented 1 year ago

Te agradezco mucho. Viendo tu imagen me pregunto si es posible, aunque CSV dudo que lo permita, visualizar thumbnails de las URL.

Muy agradecido por su paciente ayuda

JuanDDB commented 1 year ago

Del propio link de la oferta no sé si sea posible. Se podría modificar para extraer un link de una imagen y esa si se podría representar como imagen en el excel con una de sus funciones

sanperez commented 1 year ago

Juan, respecto a imagenes.py, me indicarías qué hacer ante este error. Muchas gracias y te felicito por tu trabajo.

Traceback (most recent call last): File "c:\Users\sanpe...\Escritorio\Current\Scraping\imagenes.py", line 13, in for row in csv_reader: File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64qbz5n2kfra8p0\lib\csv.py", line 110, in next self.fieldnames File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64qbz5n2kfra8p0\lib\csv.py", line 97, in fieldnames self._fieldnames = next(self.reader) File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\encodings\cp1252.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 5693: character maps to

JuanDDB commented 1 year ago

Puedes intentar de nuevo, cambié algo, no sé si arregle tu error

Lo otro si te funcionó?

sanperez commented 1 year ago

Funcionó perfectamente. Imágenes está muy bien, bastante interesante. De nuevo felicitaciones por tan excelente trabajo.

JuanDDB commented 1 year ago

graciass, disculpa la pregunta, para lo usas?

sanperez commented 1 year ago

Hace un tiempo vi este sitio https://tryhomeharvest.com/ y me llamó mucho la atención. Empecé con Python y un par de librerías a explorar un sitio que se llama Properati. Al entrar en Finca Raíz vi la diferencia en la estructura. Abismal. Leer tu código y ejecutarlo es un aprendizaje interesante. Y todo esto para un análisis comparativo del sector inmobiliario, con pocos datos solamente.

JuanDDB commented 1 year ago

Que interesante, mucha suerte en tu proyecto!

sanperez commented 1 year ago

Gracias! Exitos igualmente

sanperez commented 1 year ago

Has hecho o aplicado algo con otros sitios como properati.com.co o metro cuadrado?

JuanDDB commented 1 year ago

Noo, aun no, en estos días intento y te comento, necesitas extraer las mismas caracteristicas?

sanperez commented 1 year ago

Si Juan. Y mientras, mirando la imagen de tu ejecutable, sería interesante una interfaz como https://tryhomeharvest.com/ Aunque veo más interesante los check boxes de las características a exportar. La estructura HTML de properati no es tan compleja como la de FR. Creería yo.