danielvarga / hunglish-webapp

Automatically exported from code.google.com/p/hunglish-webapp
0 stars 0 forks source link

doc-to-text encoding problem #48

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
- Me'g egy meglepetes: van egy-ket doksi, peldaul 
whole.top1000.sav/harness.data/hu/doc/469.hu.doc
azaz 
/big3/Work/HunglishMondattar/datasources/hunglish2/hu/christie-nyaralo_gyilkosok
.doc
, amikre a hackelt tcg/scripts/catdoc_latin2.sh nem szuperal.
Miert nem szuperal? Mert "catdoc -dISO-8859-2" helyett "catdoc -dutf-8" 
tortenik,
es az utobbi valamiert latin1 o"-u"-t tesz a szovegbe, amit aztan az iconv 
elhajit.
(Furcsa, de a word jol jeleniti meg.)

Kiket erint ez? Kabe ezeket, bar ennel me'g pontosabban is meg kell majd nezni:
ls whole.top1000.sav/harness.data/hu/doc/* | while read f ; do echo -n "$f " ; 
cat $f | catdoc -dutf-8 | ( iconv --f utf8 --t latin2 -c || true ) | grep -c " 
n " ; done | grep -v " 0$"

Original issue reported on code.google.com by Varga.Da...@gmail.com on 2 Mar 2011 at 2:55

GoogleCodeExporter commented 9 years ago
Kiderült, hogy ezek pontosan a Word 95 .doc fájlok. Abból már nem sok lesz 
azért. Egyelőre wontfix, majd ha mondjuk egy SLP harvest során százszámra 
találunk ilyet, akkor újranyitom.

Original comment by Varga.Da...@gmail.com on 5 May 2011 at 4:41

GoogleCodeExporter commented 9 years ago
Hoppa. A 101 rtf-unk kozul 51-et erint az a problema, hogy a catdoc_latin2.sh 
elveszejti a double acute karaktereket. Ugyanaz, mint fentebb, hogy hullamos 
o-t es kalapos u-t rak bele, amit aztan a latin2-konverter elveszejt, hiszen 
nincs benne a kodtablaban.

ls /big3/Work/HunglishMondattar/deployment/harness.data/hu/rtf/* | while read f 
; do echo -n "$f " ; cat $f | 
/big3/Work/HunglishMondattar/hunglish-webapp/src/main/python/tcg/scripts/catdoc_
latin2.sh | ~/scripts/toproszeky.sh | grep -c o3 ; done | awk '($2==0) { print 
$1 }' | wc

Meghackeltem, beletettem a catdoc_latin2.sh-ba egy olyat, hogy az utf-8 adaton 
lecsereli a kalapost-hullamost double acute-ra. Ezt majd az utf-8 pipeline-ba 
is at kell tenni.

Original comment by Varga.Da...@gmail.com on 6 Sep 2011 at 3:39