ceskaexpedice / kramerius-web-client

Novy klient pro Krameria
13 stars 14 forks source link

Zobrazování a vyhledávání v obrázcích jako vnitřních objektech dokumentů #385

Open MarekFiser opened 3 years ago

MarekFiser commented 3 years ago

Dobrý den, klient narozdíl od toho starého prozatím nepracuje s obrázky (MODS_PICTURE) jako vnitřními částmi (internalPart) dokumentu, ačkoliv jsou ve Fedoře také uloženy jako samostatné objekty. Bylo by možné se na toto ve výhledové době zaměřit? Popisná metadata obrázků můžou dobře sloužit při jejich vyhledávání, navíc se ve starém klientu daly filtrovat obrázky, aby bylo možné vyhledávat jen v nich.

zabak commented 3 years ago

Máte nějaký příklad takového dokumentu?

MarekFiser commented 3 years ago

Ve starém klientovi to funguje při filtrování obrázků například takto zde: https://library.nfa.cz/search/r.jsp?offset=0&forProfile=facet&fq=document_type:%22picture%22 . Popř. konkrétní obrázek při hledání vyobrazení osoby s jménem "Podhajsky" v našem Krameriovi - https://kramerius.army.cz/search/i.jsp?pid=uuid:2f5552df-39a8-4400-bd06-e838f53e5587&q=Podhajsky&fq=document_type:%22picture%22

honza-rychtar commented 3 years ago

@MarekFiser Klient model picture nepodporuje. Podle jaké specifikace máte data s modelem picture vyrobeny?

@zabak Tohle jsme řešili i na schůzce ProArcu. Že nikdo neví k čemu je model picture. A podle dat ho používá historicky jen pár Krameriů na několika málo dokumentech.

zabak commented 3 years ago

My ho měli v několika odjinud replikovaných novinách - byla to metadata popisující že na stránce novin je obrázek (třeba fotka) a jaký má popisek. Když byla fotka bez popisku, tak to bylo takové hodně divné. Navíc tam nebyla informace kde na stránce ten obrázek je.

MarekFiser commented 3 years ago

My máme data ze SIRIA, která vážou obrázky i na ALTO-bloky. Máme v DB asi 120 tis. obrázků, tak by mi přišla škoda to všechno zahodit.

zabak commented 3 years ago

Jestli to máte navázané i na ALTO, tak by to byla fakt škoda zahodit. Naopak by to chtělo líp využít.

honza-rychtar commented 3 years ago

Tohle by šlo použít. Můžeme přidat do navigace ke stránkám, článkům, kapitolám, další tab Obrázky. Pod ním by pak byl seznam obrázků (jejich názvy, podobně jako u článků) a po kliku na obrázek by se nejen přešlo na stránku, na kterou obrázek odkazuje, ale taky by se orámovaly ty bloky pomocí ALTO souřadnic, na které obrázek odkazuje. Bývá tam odkaz na grafický element (obrázek) a textový element (titulek).

zabak commented 3 years ago

Shodou okolností jsem se na to dnes díval. Obrázky v ALTO jsou dvojího typu: GraphicalElement a Illustration. Nás zajímá to druhé. To první jsou obvykle různé oddělovací čáry apod.

MarekFiser commented 3 years ago

Když dám příklad, jak u nás vypadá záznam v ALTO, kde má být vyjádřen dle standardu nejprve v tagu ComposedBlock: ComposedBlock ID="ComposedBlock0" HEIGHT="1314" WIDTH="964" HPOS="426" VPOS="542" TYPE="illustration"> GraphicalElement ID="GraphicalElement0" HEIGHT="1314" WIDTH="964" HPOS="426" VPOS="542"/> plus textový blok s titulkem

V hlavním METS je pak odkaz na obrázek a titulek:

zabak commented 3 years ago

Tak to je vyšší level, já se díval jen na to co generuje Recognition Server 4.0 v NDK.

honza-rychtar commented 3 years ago

Kramerius interně METS nepoužívá. Ale zpracuje ho při importu. V tomto případě dostatečně, aby to šlo pěkně použít.

Model picture se chová podobně jako článek - je na úrovni stran a pod sebou obsahuje znova stranu/strany (strana existuje vedle i uvnitř obrázků). Navíc má picture strukturální mapu, kde má id strany a id elementu v ALTO té strany. https://kramerius.army.cz/search/api/v5.0/item/uuid:79fc23e7-191e-460f-bff7-f37bd8512c72/streams/STRUCT_MAP

<parts>
  <part type="IMAGE" order="null" alto="uuid:b4de81b6-121e-11e8-8b6e-005056b73ae5/ALTO" begin="GraphicalElement0"/>
  <part type="CAPTION" order="null" alto="uuid:b4de81b6-121e-11e8-8b6e-005056b73ae5/ALTO" begin="TextBlock12"/>
</parts>
honza-rychtar commented 1 year ago

@MarekFiser @zabak Klienta je možné rozšířit o podporu obrázků, které by se zobrazovaly podobně jako články a díky odkazům do ALTO ve strukturální mapě by je bylo možné i zvýraznit na straně.

Snímek obrazovky 2023-04-27 v 9 36 56

Nějak takto, jen místo Články/Článek by tam bylo Obrzáky/Obrázek