LIBCAS / DL4DH-Feeder

DL4DH Feeder
0 stars 0 forks source link

Metadata pro obrazová data dostupná přímo skrze Kramerius+ #39

Open stranak opened 3 years ago

stranak commented 3 years ago

NDK balíček poskytuje metadata pro archivní obraz, který ale není online dostupný.

Metadata pro obraz, který můžeme uživateli poslat – nejlepší obraz dostupný online v ImageServeru / Krameriu – nikde aktuálně dostupná nejsou. Je třeba je ale získat a zpřístupnit uživateli, i v indexu pro vyhledávání.

Pro každou stranu tedy potřebuje uživatel přehledně dostat data ze 3 kategorií (a hledat nebo filtrovat podle nich):

Archivní obraz (offline) Dostupný obraz (online) Text
Rozlišení, např. 600 DPI 300 px
Rozměry, např. 3000 px x 5000 px 1500 px x 2500 px
Formát, např. JPEG 2000, bezeztrátový JPEG ALTO XML
Barevné kanály, např. RGB RGB
Barevná hloubka, např. 16bit / kanál 8bit

Zde jde tedy o ten druhý sloupec. Návrh je, aby se tato metatdata získávala z Krameria / ImageServeru v průběhu obohacovacího kroku, kdy se zároveň zprcovává text.

Problém je, že ne každá knihovna má stejný setup toho, kde leží obrazová data pro Kramerius, případně jaká data to jsou. Toto je třeba vyřešit tak, aby uživatel měl přístup k informacím o dostupné obrazové reprezentaci ze všech knihoven stejně.

zabak commented 3 years ago

Nástroj který chceme použít je pravděpodobně jpylyzer - https://jpylyzer.openpreservation.org/ ten by se měl spouštět nad jednotlivými obrázky - uuid obrázků by se brala ze Solru. Reálně ale má archivní obraz i obraz pro zpřístupnění stejné rozlišení i dpi - výjimkou je snad jedině mapová sbírka UK. Co se týče barevných kanálů, i původně černobílé skeny mikrofilmů mají RGB a 8 bit/kanál. Podstatné je tak hlavně rozlišení. Samotné rozměry obrázku se dají z imageserveru získat přes iiif image api - volání image properties, např. https://kramerius.mzk.cz/search/iiif/uuid:d22baf06-7fb6-4488-bc6f-995b644fd085/info.json

JanMeritus commented 2 years ago