sk-spell / hunspell-sk

Slovak dictionary for hunspell
Mozilla Public License 2.0
19 stars 7 forks source link

automat na ASCII slovnik #36

Open musinsky opened 3 years ago

musinsky commented 3 years ago

Ahojte, neviem ako Vy, ale osobne asi 80-90% casu pisem po slovensky bez diakritickych znamienok. Aktualny stav SK-ascii slovnika je preto znacne podstatny. Chapem, ze udrziavat nezavisle takyto SK-ascii slovnik by bolo asi dost casovo narocne.

Je principialne mozne vytvorit automat (napr. shell script) na automaticku konverziu SK slovnika na SK-ascii ? Existuju asi 2 moznosti:

  1. Horsia a neefektivna metoda. Vygenerovat vsetky slova z SK slovnika, prekonvertovat na ascii a odstranit duplikaty.
  2. Korektne konvertovat sk_SK.aff a sk_SK.dic na ascii. Co vsetko to znamena, zatial presne neviem ...

Ak teda je mozne principialne napisat takyto automat (moznost 2) ?! mozem sa casom pokusit napisat nejaky script. Ak by uz nahodou taky automat existoval, bolo by to uplne super.

zdenop commented 3 years ago

Ahoj,,

ascii slovnik pouzivam pravidelne a nemam problem ;-) To neznamena, ze nie je co vylepsovat ASCII slovnik vznikol konverziou (presny postup si nematam, ale myslim, ze to bolo 1.).

Podla mna je spravna postup 1., lebo s 2. urcite vzniknu duplicity a pokial si pamatam, tak nie vzdy to frontendy vedeli vyriesit. Na "aff" sa da momentalne pozerat ako na kompresiu, (neviem, ci niekto ma chut pouzivat detekciu POS na ascii textoch), co napriklad pri mozilla produktoch je irelevantne, kedze ta ma slovniky zazipovane. Videl som aj postup/tool, kde zo zoznamu slov sa vygenerovalo aff a dic, aby sa zmensila velkost slovnika. Ak niekto ma cas mohol byt otestovat, ci to ma nejaky vplyv na rychlost, alebo to len zmensuje velkost slovnika.

musinsky commented 3 years ago

Ak som pochopil spravne, z pohladu RAM, resp. rychlosti prace hunspell, je viac menej jedno, ci mam jeden obrovsky "dic" subor so vsetkym vygenerovanymi slovami alebo "dic" + "aff". Rozdiel je "iba" vo velkosti samotneho "dic" suboru, ktory je ulozeny na disku. Alebo inymi slovami, ked spustim hunspell, tak on si (hrubo povedane) z "dic" + "aff" suborov vygeneruje vsetky mozne slova a alokuje si ich v RAM ?

zdenop commented 3 years ago

Úprimne - neviem. toto by chcelo otestovať, lebo sú možné rôzne scenáre (nemám veľa voľného miesta napr. na mobile, raspberry pi, alebo miesto na disku nie je problém ale podstatná je rýchlosť). V každom prípade - mať skipt (sh, python), ktorý vygeneruje kvalitný ascii slovník je vítaná pomôcka.

musinsky commented 3 years ago

OK, tak dufam, ze sam nam to casom podari urobit (ascii konvertor). Pokusim sa napisat nejaku nultu verziu.