kir-dev / korok

Villanykari Profil és Körök alkalmazás
MIT License
6 stars 0 forks source link

Ékezetes betűk helyett � a user táblában #58

Closed tmichel closed 11 years ago

tmichel commented 11 years ago

Az user táblában a címtárból migrálás után néhány helyen elromlott az ékezetes betűk kódolása. Sajnos nem arról van szó, hogy csak a felületen jelenik meg rosszul. Az adatbázisban rossz adatok szerepelnek. � az adott betű helyett.

Vonatkozó #kir-dev channel log

[29 Sep 13 18:52] * balo * migralasnal az utf8 nem mindig mukodott [29 Sep 13 18:52] * balo * egy csomo davidnal D?vid latszodik [29 Sep 13 18:52] * balo * a magyarorszagban is rossz az á betű [29 Sep 13 18:53] * balo * de pl a keresztnevben jol jott at. es a migralo szkript szerint force utf be van ra allitva [29 Sep 13 18:54] * balo * illetve Magyarorsz�g, 5100 J�szber�ny, Szent L�szl� [29 Sep 13 18:54] * balo * vs Magyarorsz�g, 3589 Tiszatarján, Tiszasor utca 12 [29 Sep 13 18:54] * balo * a tarjánnál jó az á betű :D [29 Sep 13 18:54] * balo * wtf [29 Sep 13 18:56] * balo * cimtarban is rossz

A megoldás lehet szólisták használata. Ez a keresztneveknél, helységneveknél nem gond. Az utcák már egy érdekesebb kérdés, de talán van valami nyilvános adatbázis.

Az egyszerű szólisták helyet valamilyen heurisztikus módszerrel is lehetne próbálkozni, hogy mely betűkombinációk hogyan és milyen gyakran fordulnak elő. Erre biztos van valamilyen kutatás. (Durva esetben még önlab/szakdoga is kieshet belőle. Bár ez jóval túlmutat az issue keretein. :wink:) A címek elgépelésének javítása amúgy aktívan "kutatott" téma. Biztosan van valamilyen okos algoritmus, nem kell a nulláról indulni.

vbalazs commented 11 years ago

lehet, hogy én egyszerűsítem túl a problémát, de én így javítanám:

Első körben megnézem, hogy egyáltalán hány ilyen szó van, lehet-e kézzel javítani. Esetleg erre a listára lehet aztán ráreszteni néhány szó listát (tipikusan nevek, utcanevek).

Ksisu commented 11 years ago

Hmm.. a google "szólistákra" énekeseket dob ki :/ Am én nekiesnék.

vbalazs commented 11 years ago

@Ksisu Nyugodtan kezdd kutatással. Néhány sql lekéréssel csinálj egy szólistát az érintett szavakról a db-ben. DB dumpért írj rám irc-n/talkon.

Ksisu commented 11 years ago

Ki vannak gyűjtve a hibás szavak. Kicsivel kevesebb mint 1000 találatból kb 350 "egyedi" hibás szó van. Valami szótárfélét kéne csinálni neki. A szólistás megoldással az a probléma, hogy a magyarországi utcanév listákhoz elég nehéz hozzájutni, valamint elírások is előfordulnak pl.: "Magyarorasz�g". Még alszom rá egyet vagy kettőt, de a felé hajlok, hogy először szétválogatom a szavakat, hogy � helyére milyen betűnek kell kerülnie. Majd ráeresztek egy replace-t.

Ksisu commented 11 years ago

Na a szavak megfejtése megvan, 300 adta magát, a maradék 3as kombóval jött össze:

site:www.geodruid.com "KERESETT SZÓ"
maps.google.com
http://portal.debrecen.hu/varosunk/varostortenet/utcanevjegyzek

Kiderült, hogy van még 75 nickname is, azoknak majd holnap esem neki.

Ksisu commented 11 years ago

Kész :) Sikerült egy update.sql-t csinálni, Balo felvarázsolta a DBbe.