hmeleiro / idealisto

Scraper for the spanish real estate website Idealista.com.
MIT License
15 stars 3 forks source link

Errores provocados por el juego de caracteres #2

Open cneirac opened 6 years ago

cneirac commented 6 years ago

Por lo que he encontrado (no mucho) los errores parecen tener que ver con la codificación del juego de caracteres, frente al UTF-8 que utilizan linuxm, github y el paquete idealisto, Windows utiliza su propio charset 1252 (uso Windows junto a RStudio y MicrosoftROpen).

El primer error aparece al instalar el paquete y se produce al encontrar caracteres como la 'ñ' en la definición de la variable baños en el fichero idealisto.R. He tenido que cambiar el nombre de la variable baños por banhos y ha funcionado.

El segundo error se produce en el mismo fichero idealisto.R al procesar el superíndice 2 de m² cuando intenta extraer la información de la superficie, resultando un tibble sin las columnas/variables metros y precio/m², que depende de la anterior para su cálculo. He probado a sustituir en el patrón de búsqueda de str_extract m² por m\u00B2 para que Windows lo leyera correctamente.

Los demás errores que he visto de momento tienen la misma causa, y conciernen a los mensajes de consola que se muestran durante la extracción. Los acentos se muestran tal y como se indica en http://www.i18nqa.com/debug/utf8-debug.html

Además, al igual que el otro issuer, yo sólo he sido capaz de hacer correr la función idealisto() para el caso de ciudad, no en el de distrito.

hmeleiro commented 6 years ago

Hola @calidonia ! Muchas gracias por echarle un ojo a esto y perdona por tardar tanto en contestar. Ni me había dado cuenta de que había issues publicados. Para empezar disculparme porque el paquete está en bragas realmente. Estoy implementando unos cambios bastante importantes en la estructura de las funciones y que también solucionan algunos errores que tenía el paquete. Como novato que soy no era consciente de ese tipo errores de codificación. Así que cuando suba el siguiente commit te agradecería que lo probaras en tu sistema para ver si los errores siguen estando o no. Para empezar quitaré la ñ de los scripts.

Un saludo. Y muchas gracias otra vez.

cneirac commented 6 years ago

En el fork de mi github he modificado y ampliado el fichero idealisto.R (alquiler). Ahora el tibble recoge muchas más informaciones. Puede que te interese.

hmeleiro commented 6 years ago

Lo estoy viendo. Está genial! gracias. Voy a ver cómo integrarlo. No sé si has visto que he cambiado la estructura del paquete. Básicamente he hecho una función para cada tipo de área para poder quitar algunos bucles if.

hmeleiro commented 6 years ago

Ya he solucionado el problema de la ñ en la instalación. Me falta solucionar el problema del símbolo del €. Gracias por el aviso.