danielvarga / hunglish-webapp

Automatically exported from code.google.com/p/hunglish-webapp
0 stars 0 forks source link

unicode-capable sentence segmentation needed #49

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
Meglepetes ennyi ev utan: a huntoken html entitasokka
kodolja azokat, akik nincsenek benne a latin2 tablaban.
Me'g egyszer, lassabban: a hu.sen.one.sh kimenete latin2 kodolasu,
html entitasokkal augmentalt szoveg. Szerencsere me'g ezeken
sem all teljesen fejre a hunalign, es aztan a frontend ma'r szepen
megjeleniti oket. Mindenesetre nem lenne szep kidobalni minosegszureskor
az entitasokat tartalmazo mondatokat, mert van beloluk vagy 220,000.
Pelda olyanra, amit tele van ezzel:
datasources/hunglish2/en/hemingway-across_the_river_and_into_the_trees.txt 
, aminek az az oka, hogy rosszul lettek ocr-ezve az aposztrofok.
Ha majd utf8 lesz a pipeline, azt valoszinuleg nem eli tul a huntoken.

Original issue reported on code.google.com by Varga.Da...@gmail.com on 2 Mar 2011 at 2:57

GoogleCodeExporter commented 9 years ago
Farkas Andras LF-Aligner csomagjaban van egy utf8-alapu split-sentences.perl. 
(Es egy tokenizer.perl, ami a mi Schroeder-Koehn-fele tokenizer.pl-unk egy 
tovabbfejlesztese, es en tokenizer.utf8.pl neven tettem be.) Ez jonak tunik, 
kicsit tesztelendo. De amig a hu-en pipeline nem all at utf8-ra, addig ez 
legfeljebb a tobbi nyelvparra lesz hasznos.

Original comment by Varga.Da...@gmail.com on 3 Mar 2011 at 1:51

GoogleCodeExporter commented 9 years ago
Mi kiprobaltuk az nltk-ban implementalt tokenizereket (sentence es word), es 
talaltunk olyat, ami tok jol mukodik utf8 karakterek eseten is, de volt 1-2 
durvan lathato bugja (legalabbis az alapjan, amit wikipedia parse utan 
lattunk), igy irtunk kore egy wrappert, ami ezeket utolag fixalja. Nem tudom, 
erdekel-e, esetleg ossze lehetne tesztelni a tokenizer.utf8.pl -lel, es a 
jobbat hasznalni. Ha az utobbi a jobb, az meg engem erdekelne :)

Original comment by zse...@gmail.com on 8 Apr 2011 at 11:40

GoogleCodeExporter commented 9 years ago
Oravecz Csabi egybajtos patch-e mukodik, de azert egy ennyire kritikus 
komponenst csak kicsit tobb teszteles utan tennek be.

Original comment by Varga.Da...@gmail.com on 18 May 2011 at 12:47