NLCR / Standard_NDK

Máme nový web https://standardy.ndk.cz. Záloha dokumentů z webu je stále dostupná na uložišti https://owncloud.cesnet.cz/index.php/s/yB70zl80HuZdKhP.
7 stars 0 forks source link

ALTO verzia 4.2 #158

Open FilipPavcik opened 2 years ago

FilipPavcik commented 2 years ago

V súvislosti s aktualizáciou Štandardu pre digitalizáciu monografií pripravujeme aj možnú aktualizáciu formátu ALTO zo staršej verzie 2.0 na najnovšiu verziu 4.2. Domnievame sa, že prechod na najnovšiu verziu formátu ALTO bude možný bez výraznejších zásahov do štandardu. Zmeny sa podľa nášho názoru budú týkať iba troch v našom DMF aktuálne využívaných elementov, ostatné elementy a atribúty by ostali nezmenené.

Ak by ste mali k doterajšiemu používaniu formátu ALTO akékoľvek návrhy alebo pripomienky, prosíme vás, aby ste sa k nim vyjadrili. Hlavne by sme však uvítali informáciu, či vami používané nástroje pro OCR podporujú aktuálnu verziu 4.2.

Diskusiu o formáte ALTO potom plánujeme otvoriť aj na jednaní pracovnej skupiny pre textové dokumenty.

Filip Pavčík Oddělení pro standardy

zabak commented 2 years ago
  1. Sirius generoval v roce 2017 pomocí ABBYY FineReader 8.0.1.1643 toto: https://kramerius.mzk.cz/search/api/v5.0/item/uuid:69cde3a5-6d76-11e9-b613-001b63bd97ba/streams/ALTO což obsahuje specifikaci obrázku například:
    
    <ComposedBlock ID="ComposedBlock0" HEIGHT="786" WIDTH="2044" HPOS="2318" VPOS="294" TYPE="illustration">
    <GraphicalElement ID="GraphicalElement0" HEIGHT="786" WIDTH="2044" HPOS="2318" VPOS="294"/>
    </ComposedBlock>

Pokud to převedeme na IIIF Image API, tak je to tento výřez:
https://kramerius.mzk.cz/search/iiif/uuid:69cde3a5-6d76-11e9-b613-001b63bd97ba/1294,1540,2004,1228/full/0/default.jpg

2. Recognition Server 4.0 generuje toto: https://kramerius.mzk.cz/search/api/v5.0/item/uuid:00dcafe0-7b00-4d9b-b39b-53a01287ec79/streams/ALTO
`<Illustration ID="Page1_Block4" HEIGHT="636" WIDTH="773" VPOS="557" HPOS="359"/>`
a GraphicalElement  používá jen pro různé dělicí čáry apod.

Osobně se mi líbí víc ta druhá varianta.

Navíc upozorňuji na https://github.com/ceskaexpedice/kramerius-web-client/issues/385 kde se řeší i návaznost na METS.
Drahotussky commented 2 years ago

Zdravím, my používáme FineReader Server 14 a máme v nabídce ALTO jen verzi 4.1 a nižší.

isenkyr commented 2 years ago

Dobrý den,

dovolím si reagovat. Jedna věc je jaké alto generuje OCR nástroj a druhá věc je jaké alto definuje standard. Ve standardu pro Periodika 1.8 na straně 91 je popsáno viz obr. obrazek Sirius dodržuje standard a proto je illustration zabalen do ComposedBlock.

svetlym commented 2 years ago

Dobrý den,

v Městské knihovně v Praze používáme ABBYY Recognition Server 4 a podle všeho umí generovat jen ALTO XML verze 2.0.

luckajirku commented 2 years ago

v SVK HK máme ABBYY Recognition Server 3.5 a 4, takže taky ALTO 2.0.

kerschfilip commented 2 years ago

v KNAV používáme Limb s Abbyy FineReader Engine, verzi 11. V nastavení máme jako nejvyšší verzi 4.0. Nová verze limbu je v testovací fázi a dle informací tam je stále alto v4.0.

vjirousek commented 2 years ago

Dobrý den, děkujeme všem za zpětnou vazbu. Vzhledem k tomu, že nejen společná digitalizační linka NK a MZK ale i řada dalších provozů je závislá na nástrojích, které neumožňují vytvářet OCR dle zvažované nejnovější verza ALTO XML, nebude v aktuálně připravovaných aktualizacích standardů pro tištěné dokumenty verze ALTO XML navyšována. Do budoucna připravíme návrh úpravy DMF, která by umožnila využít novější verzi ALTO XML na bázi dobrovolnosti.

Václav Jiroušek, Oddělení standardů NK ČR