Esto no es compatible con la generación de CDPedia en idiomas que no usan el alfabeto latino.
Por ej. la palabra Србија (Serbia en cirílico) se normaliza como una cadena vacía. Esto también puede afectar a la CDPedia en castellano por que algunos títulos usan alfabetos no latinos, por ej. Έλενα Παπαρίζου.
La normalización de las palabras debería limitarse a eliminar los diacríticos sin eliminar los caracteres no ASCII.
(Bug que reportó @marian-vignau por telegram)
Al generar los tokens para crear las entradas del índice, la función
normalize_words
elimina todos los caracteres que no se pueden convertir a ASCII.https://github.com/PyAr/CDPedia/blob/831919b9aa492d3ac47688c5f895a15da72cc94f/src/armado/sqlite_index.py#L39-L42
Esto no es compatible con la generación de CDPedia en idiomas que no usan el alfabeto latino.
Por ej. la palabra
Србија
(Serbia en cirílico) se normaliza como una cadena vacía. Esto también puede afectar a la CDPedia en castellano por que algunos títulos usan alfabetos no latinos, por ej.Έλενα Παπαρίζου
.La normalización de las palabras debería limitarse a eliminar los diacríticos sin eliminar los caracteres no ASCII.