Open zabak opened 2 years ago
@zabak klient ještě nepoužívá data z MODS (note=[singlePage|left|right]
) pro určení pozice strany.
Pořád platí informace zde https://github.com/ceskaexpedice/kramerius-web-client/issues/178
Informace o pozici strany by měla být v indexu. V K7 indexu to je (page.placement
), v K5, takže to pojďme raději udělat až od K7.
Teď jsou 3 možnost.
V K7 MZK testu už je dost dat z pozicemi stran v MODS, takže bych teď udělal tu část 2., tj. pokud mají všechny strany informaci o pozici, tak to klient použije. Tím se posuneme dál a vyřešíme tu část 3.
Chtělo by to i nějakou analýzu současného stavu. Je tam spousta chyb, při zpracování cca posledních cca 50 veřejných monografií z https://k7-test.mzk.cz/ u velké části info o pozici buď chybí nebo (což je horší) je špatně.
A) lef místo left
https://www.digitalniknihovna.cz/mzk/view/uuid:0ea86cb0-4611-11ec-aea4-5ef3fc9bb22f?page=uuid:c24eab04-2fa1-4ff7-8899-d0b6f4fe5f8c
https://www.digitalniknihovna.cz/mzk/view/uuid:53b10960-4d01-11ec-b757-005056827e51?page=uuid:02917034-2092-440d-a3a3-82467c57b6a6 Strana [9]
https://kramerius.mzk.cz/search/api/v5.0/item/uuid:02917034-2092-440d-a3a3-82467c57b6a6/streams/BIBLIO_MODS
<mods:note>lef</mods:note>
B) righ místo right
https://www.digitalniknihovna.cz/mzk/view/uuid:98087810-746a-11ec-8ca2-005056827e52?page=uuid:0bde375e-90a3-4eb7-8afd-b3550d92c81c Strana 345
https://kramerius.mzk.cz/search/api/v5.0/item/uuid:4c3a3880-6443-4bf1-b95f-b1148f09f7a3/streams/BIBLIO_MODS
<mods:note>righ</mods:note>
C) single místo singlePage
D) Prohozené levé a pravé strany (podle MODS stran je titulka vlevo a číslování na vnitřní části stran) (Příklady jsou uváděny do instalace, která používá heuristiku, která to zobrazí správně, špatně je to pak v datech v MODS) https://www.digitalniknihovna.cz/mzk/view/uuid:c28d2dd0-527b-11ec-a74c-005056827e52?page=uuid:ff1f1692-c1f4-42b3-87ef-f3a9c0a3a9e3 https://www.digitalniknihovna.cz/mzk/view/uuid:7413dd90-4090-11ec-a74c-005056827e52?page=uuid:7afca128-4744-46a4-abed-473a5a13a7ec https://www.digitalniknihovna.cz/mzk/view/uuid:cfc258b0-4c39-11ec-aea4-5ef3fc9bb22f?page=uuid:ba846621-6748-47d8-b87a-14ed2f577534 https://www.digitalniknihovna.cz/mzk/view/uuid:f2d86c50-58fe-11ec-b436-5ef3fc9bb22f?page=uuid:fde35bea-c1b9-454b-ae1f-eb0afde6dd07 https://www.digitalniknihovna.cz/mzk/view/uuid:702a8630-4b98-11ec-a74c-005056827e52?page=uuid:01cfbab0-dde8-428e-a7b6-99f9332ec1d6
@zabak Zjisti prosím postup přiřazovaní pozice stran v digitalizačních linkách.
Ve verzi 2.3.3 se nad K7 se pozicují stránky podle MODS, pokud mají všechny stránky informaci o pozici.
funguje, zavírám
@zabak počkej. Tohle ještě není na zavření, ale k dlouhému testování nejen u klienta. Tady jsme se domluvili, že se udělá revize toho, jak ta data o pozici vznikají.
@zabak Zjisti prosím postup přiřazovaní pozice stran v digitalizačních linkách.
Je tam spousta chyb, viz výše.
Teď se použije ta informace z MODS jen v K7 a jen pokud je u všech stran.
Protože z klienta není zřejmé, jestli se použila heuristika nebo údaj z MODS stran, tak se do konzole vypisuje typ pozicování.
use mods page placement true | false
Takže konkrétně, stejný dokument
K5
use mods page placement false
K7
use mods page placement true
Teď musíme zajistit, aby ty chyby u výroby dat nevznikaly. A taky aby tam nebyly ty překlepy - lef/left, righ/right, single/singlePage
OK, můžeme to sledovat tady. Konkrétně ty tebou identifikovaná chybějící "t" jsou jen v Krameriu ale ne v LTP, takže se asi odstraní reimportem. Horší bude jak najít ty prohozené pravé a levé strany. Vypsat titulní listy které jsou left?
@honza-rychtar mám dotaz: v MODSU http://dk.kramerius.org/mzkk7/view/uuid:c28d2dd0-527b-11ec-a74c-005056827e52?page=uuid:02bc0aec-4fd8-43dc-89d7-6affbe299b75 je uvedeno
v MODSU http://dk.kramerius.org/mzkk7/view/uuid:c28d2dd0-527b-11ec-a74c-005056827e52?page=uuid:02bc0aec-4fd8-43dc-89d7-6affbe299b75 je uvedeno mods:notesinglePage</mods:note>
Petře, proč vlastně máte tuhle stranu (přední desky) popsanou jako singlepage? Jestli je to jen kvůli testování, tak to přejdi:-). Ale jestli je to jakože správně, tak my to left/right/singlepage chápeme jinak. Že pravá/levá se popisuje podle toho, kde se ta strana skutečně nachází, ne podle toho, jak zpracovatel domýšlí, že se má strana zobrazit v závislosti na tom, jestli má druhou do páru pro dvoustránkové zobrazení. Přední desky budou vždycky (u toho co běžně digitalizujeme - při čtení zleva doprava) pravá strana, i když ve dvoustránkovém zobrazení jim bude chybět ten levý protějšek, stejně tak zadní desky budou levá strana a nebudou mít v zobrazení pravý protějšek. A singlepage by mělo být jen pro ty (úmyslně) nerozdělené skeny dvoustran/skládaček... Nebo to chápeme špatně?
Indexer zpracovává slovníkové hodnoty, tak aby se potom daly co nejlépe použít. Např. typ vydání výtisku může být v MODS přes
<mods:physicalDescription>
<mods:note>ranní vydání;</mods:note>
</mods:physicalDescription>
nebo přes
<genre type="morning">issue</genre>
Indexer tohle sjednotí a ještě přidá pomocné pole pro řazení.
"issue.type.code": "morning",
"issue.type.sort": 1,
Takže klient nemusí řešit různé zápisy, transformace a berličky, ale má k dispozici jasně definovaná data pro své potřeby.
U typu stran je to podobně. Typ strany je možné určit jednou ze tří hodnot left, right, singlePage v poznámce v MODS. Z pohledu MODS je to ale pořád jen poznámka, takže indexer hledá právě tyto 3 hodnoty a uloží je do pole dál už jasně definovaného jako pozice strany page.placement
Konkrétně
<note>left</note>
-> "page.placement": "left"
<note>right</note>
-> "page.placement": "right"
<note>singlePage</note>
-> "page.placement": "single"
Ale např.
<note>Kávová skvrna v levém dolním rohu</note>
neindexuje, protože je to validní MODS poznámka, kterou neindexujeme. Pokud bych poznámky indexovaly, pak by ji indexer uložil do pole pro poznámku a ne do pole pro pozici strany.
A proč se převádí singlePage na single? Protože indexer ještě sjednotí tvar toho zápisu.
@luckajirku Já to chápu tak, že pokud si vezmu tu fyzickou knihu a položím před sebe na stůl, tak strana je vlevo/vpravo pouze pokud má ten svůj protějšek a samostatně pokud ho nemá. Pokud si teda položím položím před sebe zavřenou knihu, tak přední i zadní desky jsou samostatně - singlePage.
Na druhou stranu ano, pokud si otevřu na iPadu knihu, tak mi zobrazí přední desky vpravo a vlevo nechá prázdné místo, protože víc kopíruje fyzické otáčení stran. Kramerius (teď na základně heuristiky) zobrazuje strany bez protějšku vždy uprostřed. Takže záleží na účelu toho proč ty údaje do MODS vůbec vkládáme a čeho tím chceme dosáhnout. Pokud chceme mít v prezentaci přední desky vpravo, tak to popisujme jak píšeš. Klient by se pak musel trochu upravit a vlastně by bylo 5 stavů (vlevo s pravou stranou, vlevo bez pravé strany, vpravo s levou stranou, vpravo bez levé strany, samostatně uprostřed).
Tohle by bylo dobré si ujasnit napříč knihovnami. Čistě prakticky to tvé řešení je lepší v tom, že z něj jde udělat automatická konverze do druhého řešení (levá bez pravé je samostatná), kdežto naopak to nepůjdu (samostatná může být vlevo/vpravo/samostatná).
ze standardu: "označení pro pravou (right) či levou (left) stranu podle řazení v dokumentu; pro označení strany spojené z vice snímků stran pak singlePage" - @vjirousek - můžeš prosím vysvětlit, jak je to míněno? Pro nás je to jednoznačné ("podle řazení v dokumentu" a "strany spojené z vice snímků stran"), ale evidentně se k tomu dá přistupovat buď z pohledu předlohy a umístění strany vzhledem ke hřbetu, nebo z pohledu budoucího dvoustránkového zobrazení v Krameriovi... Tohle by se mělo vyjasnit:-).
Pokud chceme mít v prezentaci přední desky vpravo, tak to popisujme jak píšeš. Klient by se pak musel trochu upravit a vlastně by bylo 5 stavů (vlevo s pravou stranou, vlevo bez pravé strany, vpravo s levou stranou, vpravo bez levé strany, samostatně uprostřed).
Takhle jsem to nemyslela, že se to musí zobrazovat vpravo. Jedna věc je jak to popsat, a druhá, jak to zobrazit. I strana popsaná "right" se přeci může zobrazit uprostřed, pokud máme pocit, že je to tak hezčí a uživatel to chce... Přijde mi rozumnější mít jednoznačný. logický popis bez knihovnické kreativity a pak nadefinovat klientovi, jak má co zobrazovat, než to ohýbat už při popisu.
Plyne mi z toho závěr, že pokud mám v současnosti přední desky popsané jako right, singlePage nebo je nemám popsané, tak se vždy zobrazí doprostřed a zmizí i přepínač na přepnutí do dvoustránkového režimu, což sice dokonale nekopíruje reálnou knihu, ale je to dostatečně dobré řešení. Kdyby tam ten přepínač byl, tak můžu tu jednu stránku přepnout do dvoustránkového zobrazení a pak by dejme tomu mohla opravdu skočit doprava, pokud by byla označená right. A navíc pak můžu zřídit animaci otáčení stran. Uvidíme co řekne @vjirousek
Horší bude jak najít ty prohozené pravé a levé strany. Vypsat titulní listy které jsou left?
@zabak TitlePage - left - 5807x https://k7-test.mzk.cz/search/api/client/v7.0/search?q=page.type:TitlePage%20AND%20page.placement:left&fl=pid TitlePage - right - 26323x https://k7-test.mzk.cz/search/api/client/v7.0/search?q=page.type:TitlePage%20AND%20page.placement:right&fl=pid TitlePage - single - 1488x https://k7-test.mzk.cz/search/api/client/v7.0/search?q=page.type:TitlePage%20AND%20page.placement:single&fl=pid
17 % titulních stran s vyplněnou pozici má vyplněno - left - titulní strana vlevo. Tohle nejsou chyby, to je špatně nastavený proces. Zdá se, že se to často prostě nasází hned od první strany levá, pravá, levá, pravá, ... V tomhle případě lepší žádná informace než špatná informace, protože ta heuristika ma mnohem menší chybovost než 17 %.
ze standardu: "označení pro pravou (right) či levou (left) stranu podle řazení v dokumentu; pro označení strany spojené z vice snímků stran pak singlePage" - @vjirousek - můžeš prosím vysvětlit, jak je to míněno? Pro nás je to jednoznačné ("podle řazení v dokumentu" a "strany spojené z vice snímků stran"), ale evidentně se k tomu dá přistupovat buď z pohledu předlohy a umístění strany vzhledem ke hřbetu, nebo z pohledu budoucího dvoustránkového zobrazení v Krameriovi... Tohle by se mělo vyjasnit:-).
@luckajirku Ve standardu je to uvedené a myšlené skutečně takto, "singlePage" by měla sloužit pouze pro snímek více stran (typicky pro nerozdělenou dvoustránku), který by rozbil řazení. Přední deska by měla být "right", zadní "left". Označení left/right/singlePage se nicméně primárně do standardu doplňovalo pro korektní řazení stránek ve dvoustránkovém zobrazení, o využití k zarovnání na konkrétní pozici (doprostřed/doleva/doprava) se ještě neuvažovalo, proto se zřejmě i při tvorbě dat označení singlePage/right pro přední desku v některých případech zaměňují.
Bylo řešeno v releasu ve verzi v2.3.3. Můžeme zavřít?
Ne, tohle je nedotažené, budeme se k tomu ještě muset vrátit, viz znovuotevření 15.3.2022.
@honza-rychtar co potřebuje klient jako minimum, aby správně zobrazoval dvoustrany?
Jde mi o problém tabulek, které by měly být vidět vedle sebe když zobrazím dvoustranu
https://dnnt.mzk.cz/view/uuid:ea26def1-199e-11e3-bd38-5ef3fc9ae867?page=uuid:c885f330-19df-11e3-b62e-005056825209
ale jsou o jednu stranu posunuté kvůli vložené mapě
https://dnnt.mzk.cz/view/uuid:ea26def1-199e-11e3-bd38-5ef3fc9ae867?page=uuid:b5fb6600-19df-11e3-b62e-005056825209
Pokusili jsme se tu vloženou mapu označit jako singlepage ale nestačilo to. Je v takovém případě nutné mít označené i všechny stránky jako left a right?