ceskaexpedice / kramerius-web-client

Novy klient pro Krameria
13 stars 14 forks source link

Nesprávne zaradené číslo periodika s hodnotou v hranatej zátvorke #674

Closed lgloncak closed 4 months ago

lgloncak commented 11 months ago

Nesprávne zaradené číslo s hodnotou v hranatej zátvorke

image

zápis v hranatých zátvorkách sa používa vtedy, keď informácia na výtlačku chýba, alebo je chybná, hodnota v hranatej zátvorke je fakticky oprava - korektná hodnota

Dokážete implementovať pravidlo, podľa ktorého, keď bude prítomná hranatá zátvorka, bude sa brať do úvahy (pre účely triednia/radenia) len hodnota, ktorá je v nej uložená?

Ďakujem za odpoveď.

S pozdravom

Ľuboš Glončák

rzeh4n commented 11 months ago

Na úrovni jádra doplněno pársování [dd.mm.yyyy] od Indexeru verze 17. Takže řešením je přeindexovat, jakmile nasadíte některý nový build jádra.

lgloncak commented 11 months ago

Ďakujeme,

len taká drobnosť - otázka:

Daná implementácia rieši len izolovaný typ formátu DD.MM.RRRR alebo všetky možné prípady zápisu v hranatej zátvorke?

Ak nie je, tak pravidlo má byť také ako bolo uvedené už vyššie: ak bude v zápise uvedená hranatá zátvorka, bude sa brať do úvahy (pre účely triednia/radenia) len hodnota, ktorá je v nej uložená, bez ohľadu na to, čo je v nej napísane - bez ohľadu na formát (mimo DD.MM.RRRR, môže byť aj MM.RRRR; DD.-DD.MM.RRRR; MM.-MM.RRRR; atď.) alebo existenciu ďalších hodnôt, ktoré sa v predmetnej hranatej zátvorke nenachádzajú (napr. DD.MM.RRRR[DD.MM.RRRR].

S pozdravom

Ľuboš Glončák

rzeh4n commented 11 months ago

@lgloncak Ano, doplnil jsem jen [DD.MM.RRRR] Takže pro další zmiňované případy to fungovat vždy nemusí.

Některé formáty s hranatými závorkami už podporované jsou, ale jsou tam i jiné zápisy, třeba jen s jednou závorkou. Např.:

Je to dost dané existujícími daty. A je to kompromis mezi zaindexováním pro řazení a odhalením chyb v datech. Takto se kromě explicitně uvedených patternů ostatní věci neparsují a chybná data pak jdou poznat - jsou v řazení až na konci.

Rozširoval bych to proto dál, až uvidíme problém v datech. Protože vůbec bych se nedivil, kdyby se ukázalo, že namísto [MM.-MM.RRRR] bývají úplně jiné zápisy, třeba MM.-[MM].RRRR nebo MM.-MM.[RRRR]

lgloncak commented 11 months ago

Ok, to je rozumný prístup.

V každom prípade môžem poprosiť rozšíriť aspoň o nasledovné prípady:

[DD.-DD.MM.RRRR] [MM.RRRR] [MM.-MM.RRRR] [RRRR] [RRRR-RRRR]

DD.MM.RRRR[DD.MM.RRRR] MM.RRRR[MM.RRRR] RRRR[RRRR]

[DD.MM.RRRR]DD.MM.RRRR [MM.RRRR]MM.RRRR [RRRR]RRRR

rzeh4n commented 11 months ago

Ještě jsem to doplnil:

[DD.-DD.MM.RRRR] [MM.RRRR] [MM.-MM.RRRR]

Rozšířil jsem, bude fungovat od Indexeru verze 17.

[RRRR] [RRRR-RRRR]

Už fungovalo teď, minimálně od verze 15.

DD.MM.RRRR[DD.MM.RRRR] MM.RRRR[MM.RRRR] RRRR[RRRR]

[DD.MM.RRRR]DD.MM.RRRR [MM.RRRR]MM.RRRR [RRRR]RRRR

Tady si nejsem jistý významem. Nechybí vám tam pomlčky?

lgloncak commented 11 months ago

Pozdravujem,

nie nechýbajú.

Ide o štandardizovaný zápis v prípade, že na výtlačku je uvedený /vytlačený/ nesprávny dátum. Vtedy sa zapíše nesprávny aj správny dátum natesno vedľa seba, pričom správny sa zapíše do hranatej zátvorky.

Inverznú verziu zápisu (keď sú hranaté zátvorky na prvom mieste) som dal len pre každý prípad, štandardne je zápis najskôr bez hranatej zátvorky a potom s ňou.

honza-rychtar commented 11 months ago

@lgloncak koukal jsem na vaše data a z celkem z celkového množství 407 060 výtisků obsahuje v datu vydání otevřenou hranatou závorku 238 výtisků. Z toho 137 jich má tu závorku na začátku a 101 uvnitř. Všechny tyto případy obsahují i zavřenou hranatou závorku a to vždy na konci.

Pokud jde o formáty, tak z vašich případů se tam nikde nevyskytují

[DD.MM.RRRR]DD.MM.RRRR
[MM.RRRR]MM.RRRR
[RRRR]RRRR

A naopak se tam vyskytují případy, které neuvádíte

MM.-MM.RRRR[MM.-MM.RRRR]
DD.MM.-DD.MM.YYYY[DD.MM.-DD.MM.YYYY]
DD.-DD.MM.YYYY[DD.-DD.MM.YYYY]

Celkově těch výskytů je u vás minimálně a v případě českých knihoven se prakticky nevyskytují. Podle pravidel pro popis periodik jsou formáty pro datum vydání následující

● DD.MM.RRRR - pokud známe den (např. 27.01.1998) ● MM.RRRR - pokud známe pouze měsíc (např. 01.1998) ● RRRR - pokud známe pouze rok (např. 1998) ● RRRR-RRRR – vydání pro více roků (např. 1998-1999) ● MM.-MM.RRRR - vydání pro více měsíců (např. 01.-02.1998) ● MM.RRRR-MM.RRRR – vydání pro více měsíců (např. 12.1998-01.1999) ● DD.MM.-DD.MM.RRRR - vydání pro více dní (např. 31.01.-01.02.1998) ● DD.MM.RRRR-DD.MM.RRRR – vydání pro více dní (např. 31.12.1998-01.01.1999) ● DD.-DD.MM.RRRR – vydání pro více dní (např. 02.-03.02.1998)

S dodatkem že Žádný z těchto údajů se nezapisuje do závorky

Případy, které uvádíte, se týkají katalogizačních pravidel pro popisná metadata - ta se uplatňují u titulů ale ne nutně u výtisků, které v katalogu nejsou a vznikají při digitalizaci podle výše zmíněných pravidel.

Prosím taky o vyjádření @luckajirku @zabak @kerschfilip @vjirousek

@lgloncak pokud by to na vaší straně šlo, tak prosím o úpravu vašich pravidel, aby to bylo jednotné a nerozjíždělo se nám to.

V každém případě se budeme snažit přidat podporu pro co nejvíce formátu, protože správná interpretace je pak nutná pro řazení a filtrování.

lgloncak commented 11 months ago

@honza-rychtar: ďakujem za feedback.

ad 1: v zásade každý z uvedených zavedených formátov (ktorý máte podľa pravidiel pre popis periodík) môže mať verziu s hranatou zátvorkou a to v 2 možných variáciách:

ad 2: viem, že som neuviedol všetky prípady, vzhľadom na to, že kolega @rzeh4n, navhrol pridávať pravidlá postupne a vychádzal som z predpokladu, že najčastnejšie sa predmetný "problémový" zápis vyskytuje pri formátoch dátumu: DD.MM.RRRR[DD.MM.RRRR], MM.RRRR[MM.RRRR], RRRR[RRRR]

ad 3: rozumiem Vašej požiadavke na zjednotenie formátov podľa už existujúcich pravidiel. Podľa Vašich možností Vás chcem poprosiť o doplnenie predmetných formátov na základe spomínaného predpisu, ktorý toleruje existenciu hranatých zátvoriek. Ak predpokladám správne, tak nejde o narušenie pravidel stávajúceho zápisu, ale skôr jeho doplnenie / rozšírenie.

U nás predmetný "zátvorkový" zápis je určený dodržiavaním pravidiel definovaného predpisu (štandardu), ktorého výstupom je mimo záznamov v dmd sekcii METS-u aj vytvorenie MARC záznamu, ktorý sa následne vkladá do knižničného katalógu. Úprava záznamov bude znamenať potrebu dodatočných korekcií vo výstupných dátach.

V každom prípade, dajte mi prosím vedieť aké su možnosti, príp. Vaše finálne rozhodnutie, aby som v prípade zamietavého stanoviska, vedel oboznámiť kolegov a následne nastaviť príslušné korekčné mechanizmy.

Prajem všetko (aspoň) dobré a ďakujem.

zabak commented 4 months ago

@honza-rychtar změň tomuhle prosím stav, předpokládám, že to ještě není domluvené

honza-rychtar commented 4 months ago

@zabak ono se to netýká klienta. Přepsal jsem to sem https://github.com/ceskaexpedice/kramerius/issues/1045 Tady bych to zavřel.