PyAr / CDPedia

CDPedia is a project to make the Wikipedia accesable offline
34 stars 15 forks source link

La normalización de palabras elimina todos los caracteres no ASCII #346

Closed fzuccolo closed 3 years ago

fzuccolo commented 3 years ago

(Bug que reportó @marian-vignau por telegram)

Al generar los tokens para crear las entradas del índice, la función normalize_words elimina todos los caracteres que no se pueden convertir a ASCII.

https://github.com/PyAr/CDPedia/blob/831919b9aa492d3ac47688c5f895a15da72cc94f/src/armado/sqlite_index.py#L39-L42

Esto no es compatible con la generación de CDPedia en idiomas que no usan el alfabeto latino.

Por ej. la palabra Србија (Serbia en cirílico) se normaliza como una cadena vacía. Esto también puede afectar a la CDPedia en castellano por que algunos títulos usan alfabetos no latinos, por ej. Έλενα Παπαρίζου.

La normalización de las palabras debería limitarse a eliminar los diacríticos sin eliminar los caracteres no ASCII.