Closed tmichel closed 11 years ago
lehet, hogy én egyszerűsítem túl a problémát, de én így javítanám:
Első körben megnézem, hogy egyáltalán hány ilyen szó van, lehet-e kézzel javítani. Esetleg erre a listára lehet aztán ráreszteni néhány szó listát (tipikusan nevek, utcanevek).
Hmm.. a google "szólistákra" énekeseket dob ki :/ Am én nekiesnék.
@Ksisu Nyugodtan kezdd kutatással. Néhány sql lekéréssel csinálj egy szólistát az érintett szavakról a db-ben. DB dumpért írj rám irc-n/talkon.
Ki vannak gyűjtve a hibás szavak. Kicsivel kevesebb mint 1000 találatból kb 350 "egyedi" hibás szó van. Valami szótárfélét kéne csinálni neki. A szólistás megoldással az a probléma, hogy a magyarországi utcanév listákhoz elég nehéz hozzájutni, valamint elírások is előfordulnak pl.: "Magyarorasz�g". Még alszom rá egyet vagy kettőt, de a felé hajlok, hogy először szétválogatom a szavakat, hogy � helyére milyen betűnek kell kerülnie. Majd ráeresztek egy replace-t.
Na a szavak megfejtése megvan, 300 adta magát, a maradék 3as kombóval jött össze:
site:www.geodruid.com "KERESETT SZÓ"
maps.google.com
http://portal.debrecen.hu/varosunk/varostortenet/utcanevjegyzek
Kiderült, hogy van még 75 nickname is, azoknak majd holnap esem neki.
Kész :) Sikerült egy update.sql-t csinálni, Balo felvarázsolta a DBbe.
Az user táblában a címtárból migrálás után néhány helyen elromlott az ékezetes betűk kódolása. Sajnos nem arról van szó, hogy csak a felületen jelenik meg rosszul. Az adatbázisban rossz adatok szerepelnek. � az adott betű helyett.
Vonatkozó #kir-dev channel log
A megoldás lehet szólisták használata. Ez a keresztneveknél, helységneveknél nem gond. Az utcák már egy érdekesebb kérdés, de talán van valami nyilvános adatbázis.
Az egyszerű szólisták helyet valamilyen heurisztikus módszerrel is lehetne próbálkozni, hogy mely betűkombinációk hogyan és milyen gyakran fordulnak elő. Erre biztos van valamilyen kutatás. (Durva esetben még önlab/szakdoga is kieshet belőle. Bár ez jóval túlmutat az issue keretein. :wink:) A címek elgépelésének javítása amúgy aktívan "kutatott" téma. Biztosan van valamilyen okos algoritmus, nem kell a nulláról indulni.