PyAr / CDPedia

CDPedia is a project to make the Wikipedia accesable offline
34 stars 15 forks source link

Mejorar la tokenización de los títulos al generar entradas de índice #347

Closed fzuccolo closed 3 years ago

fzuccolo commented 3 years ago

Incluir tokens con símbolos

Agregada la función tokenize_title para una mejor extración de tokens.

Título Tokens antes Tokens ahora
AC/DC ac, dc ac, dc, ac/cd
.com com com, .com
Fahrenheit 9/11 Fahrenheit, 9, 11 fahrenheit, 9/11, 9, 11,

Estas nuevas entradas se agregan al índice, permitiendo obtener los resultados esperados cuando se busca .com o AC/DC (fix #326).

Mejorar el comportamiento de la función normalize_words:

Comportamiento con los cambios:

Raw Normalized
FOO foo
FóÕ foo
ñandú nandu
.com .com
AC/DC ac/dc
Србија србија
замо́к замок
παϊδάκια παιδακια

Con estos cambios, la tokenización funciona correctamente para caracteres no ASCII (fix #346)

Título tokens
Jeep Ñandú jeep, nandu
Número π numero, π
Έλενα Παπαρίζου ελενα, παπαριζου
♥ Heart (álbum) , heart, album

Ahora por ej. si el artículo Número π está incluído y se busca π, se obtiene:

Tests