epl-unscramble on Eesti Päevalehe (EPL) tasuliste artiklite tõenäosuslik dešifreerija. Selleks ei kasuta antud süsteem mitte midagi rohkemat kui infot ainult sellelt leheküljelt, millel paikeb artikli algus ja ülejäänud "udu". Lisaks kasutab süsteem vaid üht lihtsat eesti keele sõnade nimekirja ning kuna sellega töötlemine nõuab olulist ressurssi, siis tehakse põhiline dešifreerimine ära serveri poolel.
Lisaks toimib epl-unscramble ka Eesti Ekspressi, Maalehe ja teiste delfi.ee portaalis paiknevate tasuliste artiklitega ning kohati ka Postimees Pluss artiklitega.
Igaühel on võimalus ise proovida ja veenduda, et epl-unscramble suht-koht toimib. Selleks piisab ainult ühe brauseri järjehoidja (bookmark'i) kasutamisest.
Ja täpselt nii lihtne see ongi, kusjuures kui see järjehoidja on juba olemas, siis pole vaja edaspidi muud teha, kui lihtsalt EPL-e artiklit lugedes sellel klikkida.
Külg külje kõrval võrdlust võib näha siit. Vasakul on artikli originaaltekst, paremal epl-unscramble'i dešifreeritu. Loomulikult on erinevusi, kuid üllatuslikult pole neid nii palju kui esialgu võiks arvata, kusjuures suuremalt jaolt on need just pikemates sõnades või nimedes.
Kui on soov antud protsessi automatiseerida, et ei peaks iga artikli peal ise järjehoidjal klikkima, on võimalik ka oma brauserisse paigaldada userscript, mis toimib näiteks Greasemonkey'ga siit. Kõikidel lehekülgedel, millel epl-unscramble toimib, käivitatakse ülal kirjeldatud protseduur dešifreerimiseks automaatselt.
epl-unscramble järjehoidjal klikkides toimuvad järgmised asjad:
See lugu sai alguse kunagi ammu-ammu. Sattusin ühele EPL-e artiklile ja ei saanud seda tervikult lugeda, aga nägin pikka "udukogu" selle koha peal, kus tekst peaks olema. Kursorit sellest üle liigutades märkasin üht huvitavat asjaolu: esialgu oleksin arvanud, et tegemist on lihtsalt pildiga, kuid kursor näitas, et seal peaks nagu olema selekteeritav tekst. Proovin selekteerida, aga nagu midagi poleks muutunud. Aga oletasin, et selekteerisin mingi lõigu ja kopeerisin selle ning kleepisin mujale. Oh seda imet, ongi mingi tekst! Kasutasin brauseris olevat Inspect element funktsionaalsust, et vaadata, mis lehel toimub ning selgus, et seal oligi mingi tekst ning see "udu" oli vaid visuaalselt peale genereeritud. Aga kahjuks (või EPL-e õnneks) polnud see loetav eesti keel. Samas neid sõnu lugedes jäi mulje, et oleks nagu võimalik midagi välja lugeda. Sellest väikesest tähelepanekust ilmneski, et igas sõnas on tähed lihtsalt kuidagi ümber järjestatud.
Loomulikult oleks olnud äärmiselt tülikas üritada ise neist uuesti õigeid sõnu kokku panna, aga meil on ju arvutid. Seega ma kirjutasingi esialgu ühe väikse programmi, mis eesti keele sõnade nimekirjast otsis sõnad, mis sisaldasid täpselt samu tähti ja leidis võimalikud originaalsõna kandidaadid. Neist valis välja kõige sagedamini esineva lootuses, sest tõenäosus, et just see on õige antud juhul, on suurim. Lisaks võetakse arvesse tõenäosusi, et üks sõna teisele järgneb. Et seda protsessi praktilisemaks teha, kirjutasingi väikese veebiteenuse, millega selline töötlus oleks ühe kliki kaugusel.
et.txt
- http://invokeit.wordpress.com/frequency-word-lists/sonavorm_kahanevas.txt
- http://www.cl.ut.ee/ressursid/sagedused1/2_gramm_koond_sonavorm_sort_x_va10
- http://www.cl.ut.ee/ressursid/mitmikud/