UB-Mannheim / ocr-gt-tools

Ergonomic line-by-line transcription of scanned text.
GNU Affero General Public License v3.0
47 stars 11 forks source link

Verzeichnisstruktur passt nicht zur Weiterverarbeitung #22

Closed zuphilip closed 8 years ago

zuphilip commented 8 years ago

Wenn man momentan die corrections.html herunterlädt und versucht die nächsten Schritte durchzuführen, dann ergibt dies einen Fehler, z.B.:

$ ocropus-gtedit extract correction.html 
# line-001.png has empty transcript; skipping
# line-002.png has empty transcript; skipping
# line-003.png has empty transcript; skipping
# line-004.png has empty transcript; skipping
# line-005.png has empty transcript; skipping
line-006.png    PARS TERTIA. 123
Traceback (most recent call last):
  File "/usr/local/bin/ocropus-gtedit", line 237, in <module>
    if not os.path.exists(d): os.makedirs(d)
  File "/usr/lib/python2.7/os.py", line 157, in makedirs
    mkdir(name, mode)
OSError: [Errno 2] No such file or directory: ''

Das Problem ist, dass ocropus-gtedit den angezeigten Pfad verwendet um die Bilder und gt.txt-Dateien zu speichern und dabei zwingend einen Ordner anlegen möchte. Momentan wird aber einfach nur etwa "line-001.png" zur Bezeichnung verwendet und damit bekommt das Kommando ein Problem, da es ja dann keinen Namen für den anzulegenden Ordner vorfindet.

Hier noch ein Bild zum Unterschied beim händisch erstellten corrections.html und dem automatisch gespeicherten:

correctionvgl

kba commented 8 years ago

Closed by #23