Closed fzuccolo closed 3 years ago
Agregada la función tokenize_title para una mejor extración de tokens.
tokenize_title
AC/DC
ac
dc
ac/cd
.com
com
Fahrenheit 9/11
Fahrenheit
9
11
fahrenheit
9/11
Estas nuevas entradas se agregan al índice, permitiendo obtener los resultados esperados cuando se busca .com o AC/DC (fix #326).
normalize_words
Comportamiento con los cambios:
FOO
foo
FóÕ
ñandú
nandu
ac/dc
Србија
србија
замо́к
замок
παϊδάκια
παιδακια
Con estos cambios, la tokenización funciona correctamente para caracteres no ASCII (fix #346)
Jeep Ñandú
jeep
Número π
numero
π
Έλενα Παπαρίζου
ελενα
παπαριζου
♥ Heart (álbum)
♥
heart
album
Ahora por ej. si el artículo Número π está incluído y se busca π, se obtiene:
test_word_normalization
test_title_tokenization
Incluir tokens con símbolos
Agregada la función
tokenize_title
para una mejor extración de tokens.AC/DC
ac
,dc
ac
,dc
,ac/cd
.com
com
com
,.com
Fahrenheit 9/11
Fahrenheit
,9
,11
fahrenheit
,9/11
,9
,11
,Estas nuevas entradas se agregan al índice, permitiendo obtener los resultados esperados cuando se busca
.com
oAC/DC
(fix #326).Mejorar el comportamiento de la función
normalize_words
:Comportamiento con los cambios:
FOO
foo
FóÕ
foo
ñandú
nandu
.com
.com
AC/DC
ac/dc
Србија
србија
замо́к
замок
παϊδάκια
παιδακια
Con estos cambios, la tokenización funciona correctamente para caracteres no ASCII (fix #346)
Jeep Ñandú
jeep
,nandu
Número π
numero
,π
Έλενα Παπαρίζου
ελενα
,παπαριζου
♥ Heart (álbum)
♥
,heart
,album
Ahora por ej. si el artículo
Número π
está incluído y se buscaπ
, se obtiene:Tests
test_word_normalization
test_title_tokenization
para verificar la tokenización que queremos lograr