Open plzombie opened 1 year ago
@plzombie .
По поводу OCR.
Смотри связку tesseract + tesseract2djvused + djvused. Правда в среднем мне совсем не нравится, что пользует QXml. Ну почему не libxml? С другой стороны дарённому коню в зубы не смотрят. Но привязка к Qt всё-равно напрягает.
Ну, я буду без Qt делать, в любом случае. И там tesseract отдаёт html, а не чистый xml. Этот аспект тоже надо учитывать
@plzombie say:
И там tesseract отдаёт html, а не чистый xml.
Нет. Tesseract имеет несколько выходных генераторов, один из них hocr
, а это чистый xml. Только его указывать надо либо в списке:
for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng pdf txt hocr; done
либо как единственный:
for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng hocr; done
Как раз в спеках по hOCR пишут, что это HTML/XHTML. А в случае HTML там могут быть вещи вроде тега <br> без закрывающейся скобки. Хотя, не думаю, что tesseract такое экспортирует. В примерах вообще используется libxml2. Но надо иметь ввиду, что на вход могут подать любой HTML документ
@plzombie say:
Как раз в спеках по hOCR пишут, что это HTML/XHTML.
Нет. Это генератор html
и он сильно отличается от hocr
. Никаких <br>
и еже в hocr
ты никогда не встетишь. Там вообще привычних HTML-тегов нет совсем.
Как-то мимо меня прошёл этот скрипт на Питоне. Собственно, чего оттуда у меня нет.
В остальном я пока впереди.