WebarchivCZ / Seeder

Seeder - Czech webarchive curating tool and public site
MIT License
15 stars 2 forks source link

diakritika - doplnit, aby bylo možné vyhledávat i bez diakritiky (časopis = casopis) #373

Closed Visgean closed 7 years ago

Visgean commented 7 years ago

https://github.com/WebarchivCZ/Seeder/issues/295

mariehaskovcova commented 7 years ago

ahoj, hledání celkově je super, jen jsme narazili ještě na dílčí věc týkající se diakritiky, pokud je celý název buď s diakritikou nebo bez diakritiky, je to ok, pokud je diakritika správně jen částečně, už se zdroj nenajde, ukážu na příkladech:

zdroj Havířov, když zadám Havirov, je to ok, pokud zadám Havírov, zdroj se nenajde

nebo Česká republika, Ceska republika – ok, Ceská republika - nenajde

Visgean commented 7 years ago

Ok, tohle by melo byt vcelku jednoduse opravitelne.

poznamka pro me:

Pridat stripovani diakritiky do operatoru OR v https://github.com/WebarchivCZ/Seeder/blob/master/Seeder/search_blob/models.py#L31