ezqdavid / scrapAlquileres

0 stars 0 forks source link

El resultado tiene muchos errores #2

Open srosanovich opened 1 year ago

srosanovich commented 1 year ago

prueba (2) prueba (3) prueba (4)

Buenas! Estuve probando el código y el resultado tiene un montón de palabras que no reconoce bien. Pongo una parte del resultado del archivo prueba (3).

Resultó clave probar las dos opciones que dejaste en el código para convertir la imagen

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 21, 3) new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 11)

La segunda fue mucho más efectiva, mirá: V. PUEYRREDON (B° G.S.Mar- tin) 1° Plso 3. amb c/tol Dil Prop Artigas 5714 $72-6047 V 15-20 hs

V/PUEYRREDON 2 amplios amb P/bala'2 patios coc 3x4 10 aflos g50 mill Puhl Nazca 4199 572-9873

V/PUEYRREDON TE 3 amb fie oly Mosconl 2296 1° B lunes 53- 303 )

V/PUEYRREDON 4 amb t/casa fnte c/TE 1050 mill Nelson 50-

Mientras que la primera devuelve: | aA PUEYRREDON (B° G.S. Mare] 1 "yin 19 Piso: 3. amb ¢/tel DIT Prop. if |. Artigas $714 572-6847 V 15-20 hs | | | V/PUE EYRREDON 2 amplios amb | 1 p/bala'2 patlos coc 3x4 10 afios | i: "850: mill Puhl Nazca 4199 572-9873 | | V/PUEYRREDON TE 9 amb fo] fo 4-19 Mascon 2296 " B lunes. Gd | 1 3 3037 | . ne | V/PUEYRREDON ry "amb 'ease |

  1. fnte. o/TE 4050 mut Nelson, haan | | 549? | 1
srosanovich commented 1 year ago

Probé varias combinaciones:

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 3)

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 7)

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 11)

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 85, 15)

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 19)

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 23)

new_image = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 85, 27)

Por ahora ninguna parece muy infalible, voy a seguir probando cositas pero si se te ocurre algo, ahí arriba dejé imágenes para probar. Tengo más si hace falta

ezqdavid commented 1 year ago

Para otro proyecto estuve probando sumarle un corrector ortográfico que podemos verlo aca https://github.com/bakwc/JamSpell Estaba pensando, que aproximación corresponde mas, si aumentar la legibilidad de la info y tratar de que se lea 100% infalible o capaz que con un 60% de legibilidad y un buen corrector que entrenemos para la necesidad particular, tomando en cuenta las abreviaturas y el contexto de las palabras funcionaria mejor. Si te parece podemos avanzar por ese lado o investigar mas de que forma se puede mejorar la calidad de la lectura.