Open FilipPavcik opened 3 years ago
<ComposedBlock ID="ComposedBlock0" HEIGHT="786" WIDTH="2044" HPOS="2318" VPOS="294" TYPE="illustration">
<GraphicalElement ID="GraphicalElement0" HEIGHT="786" WIDTH="2044" HPOS="2318" VPOS="294"/>
</ComposedBlock>
Pokud to převedeme na IIIF Image API, tak je to tento výřez:
https://kramerius.mzk.cz/search/iiif/uuid:69cde3a5-6d76-11e9-b613-001b63bd97ba/1294,1540,2004,1228/full/0/default.jpg
2. Recognition Server 4.0 generuje toto: https://kramerius.mzk.cz/search/api/v5.0/item/uuid:00dcafe0-7b00-4d9b-b39b-53a01287ec79/streams/ALTO
`<Illustration ID="Page1_Block4" HEIGHT="636" WIDTH="773" VPOS="557" HPOS="359"/>`
a GraphicalElement používá jen pro různé dělicí čáry apod.
Osobně se mi líbí víc ta druhá varianta.
Navíc upozorňuji na https://github.com/ceskaexpedice/kramerius-web-client/issues/385 kde se řeší i návaznost na METS.
Zdravím, my používáme FineReader Server 14 a máme v nabídce ALTO jen verzi 4.1 a nižší.
Dobrý den,
dovolím si reagovat. Jedna věc je jaké alto generuje OCR nástroj a druhá věc je jaké alto definuje standard. Ve standardu pro Periodika 1.8 na straně 91 je popsáno viz obr. Sirius dodržuje standard a proto je illustration zabalen do ComposedBlock.
Dobrý den,
v Městské knihovně v Praze používáme ABBYY Recognition Server 4 a podle všeho umí generovat jen ALTO XML verze 2.0.
v SVK HK máme ABBYY Recognition Server 3.5 a 4, takže taky ALTO 2.0.
v KNAV používáme Limb s Abbyy FineReader Engine, verzi 11. V nastavení máme jako nejvyšší verzi 4.0. Nová verze limbu je v testovací fázi a dle informací tam je stále alto v4.0.
Dobrý den, děkujeme všem za zpětnou vazbu. Vzhledem k tomu, že nejen společná digitalizační linka NK a MZK ale i řada dalších provozů je závislá na nástrojích, které neumožňují vytvářet OCR dle zvažované nejnovější verza ALTO XML, nebude v aktuálně připravovaných aktualizacích standardů pro tištěné dokumenty verze ALTO XML navyšována. Do budoucna připravíme návrh úpravy DMF, která by umožnila využít novější verzi ALTO XML na bázi dobrovolnosti.
Václav Jiroušek, Oddělení standardů NK ČR
V súvislosti s aktualizáciou Štandardu pre digitalizáciu monografií pripravujeme aj možnú aktualizáciu formátu ALTO zo staršej verzie 2.0 na najnovšiu verziu 4.2. Domnievame sa, že prechod na najnovšiu verziu formátu ALTO bude možný bez výraznejších zásahov do štandardu. Zmeny sa podľa nášho názoru budú týkať iba troch v našom DMF aktuálne využívaných elementov, ostatné elementy a atribúty by ostali nezmenené.
Ak by ste mali k doterajšiemu používaniu formátu ALTO akékoľvek návrhy alebo pripomienky, prosíme vás, aby ste sa k nim vyjadrili. Hlavne by sme však uvítali informáciu, či vami používané nástroje pro OCR podporujú aktuálnu verziu 4.2.
Diskusiu o formáte ALTO potom plánujeme otvoriť aj na jednaní pracovnej skupiny pre textové dokumenty.
Filip Pavčík Oddělení pro standardy