La normalización de palabras elimina todos los caracteres no ASCII

(Bug que reportó @marian-vignau por telegram)

Al generar los tokens para crear las entradas del índice, la función normalize_words elimina todos los caracteres que no se pueden convertir a ASCII.

https://github.com/PyAr/CDPedia/blob/831919b9aa492d3ac47688c5f895a15da72cc94f/src/armado/sqlite_index.py#L39-L42

Esto no es compatible con la generación de CDPedia en idiomas que no usan el alfabeto latino.

Por ej. la palabra Србија (Serbia en cirílico) se normaliza como una cadena vacía. Esto también puede afectar a la CDPedia en castellano por que algunos títulos usan alfabetos no latinos, por ej. Έλενα Παπαρίζου.

La normalización de las palabras debería limitarse a eliminar los diacríticos sin eliminar los caracteres no ASCII.

PyAr / CDPedia

La normalización de palabras elimina todos los caracteres no ASCII #346