NLCR / Standard_NDK

Máme nový web https://standardy.ndk.cz. Záloha dokumentů z webu je stále dostupná na uložišti https://owncloud.cesnet.cz/index.php/s/yB70zl80HuZdKhP.
7 stars 0 forks source link

Formát obrázků pro použití na OCR #196

Closed Drahotussky closed 10 months ago

Drahotussky commented 10 months ago

Zdravím, ve změnovém listu pro standardy mono 2.0 a perio 2.0 byla odstraněna poznámka o doporučení dělat OCR z uživatelských snímků. Nyní se tedy má OCR dělat z TIFFu (primární sken po), MC (archivní JP2) nebo je to na výběru zpracovatele a lze dělat OCR i z UC (uživatelský JP2?

Děkuji

fremrovaK commented 10 months ago

Dobrý den, doporučení tvořit OCR z uživatelských kopií bylo z obou DMF odstraněno na základě issue #58 https://github.com/NLCR/Standard_NDK/issues/58 a platí tedy pokyny, kterou jsou uváděny tam, tj. vytvářet OCR z nekomprimovaných obrazových soborů - z archivních kopií.

zabak commented 10 months ago

Jen doplním: uživatelská kopie musí mít stejné rozlišení jako archivní kopie. Pokud by například archivní kopie byla 600 dpi a uživatelská kopie 300 dpi, neseděly by souřadnice v ALTO souboru na zobrazený obrázek stránky.