Стать круче djvubind

plzombie / depress

Program to create djvu from multiple files (using djvulibre)

https://depress.tech/

BSD 2-Clause "Simplified" License

4 stars 1 forks source link

Стать круче djvubind #11

Open plzombie opened 1 year ago

plzombie commented 1 year ago

Как-то мимо меня прошёл этот скрипт на Питоне. Собственно, чего оттуда у меня нет.

Нет OCR.
Нет метадаты.

В остальном я пока впереди.

zvezdochiot commented 1 year ago

@plzombie .

По поводу OCR.

Смотри связку tesseract + tesseract2djvused + djvused. Правда в среднем мне совсем не нравится, что пользует QXml. Ну почему не libxml? С другой стороны дарённому коню в зубы не смотрят. Но привязка к Qt всё-равно напрягает.

plzombie commented 1 year ago

Ну, я буду без Qt делать, в любом случае. И там tesseract отдаёт html, а не чистый xml. Этот аспект тоже надо учитывать

zvezdochiot commented 1 year ago

@plzombie say:

И там tesseract отдаёт html, а не чистый xml.

Нет. Tesseract имеет несколько выходных генераторов, один из них hocr, а это чистый xml. Только его указывать надо либо в списке:

for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng pdf txt hocr; done

либо как единственный:

for ttif in *.tif; do echo "$ttif"; tesseract "$ttif" "${ttif%.tif}" -l rus+eng hocr; done

plzombie commented 1 year ago

Как раз в спеках по hOCR пишут, что это HTML/XHTML. А в случае HTML там могут быть вещи вроде тега <br> без закрывающейся скобки. Хотя, не думаю, что tesseract такое экспортирует. В примерах вообще используется libxml2. Но надо иметь ввиду, что на вход могут подать любой HTML документ

zvezdochiot commented 1 year ago

@plzombie say:

Как раз в спеках по hOCR пишут, что это HTML/XHTML.

Нет. Это генератор html и он сильно отличается от hocr. Никаких <br> и еже в hocr ты никогда не встетишь. Там вообще привычних HTML-тегов нет совсем.