NLCR / Standard_NDK

Máme nový web https://standardy.ndk.cz. Záloha dokumentů z webu je stále dostupná na uložišti https://owncloud.cesnet.cz/index.php/s/yB70zl80HuZdKhP.
7 stars 0 forks source link

Mezera v titleInfo > nonSort #154

Closed honza-rychtar closed 2 years ago

honza-rychtar commented 3 years ago

V příkladech použití nonSort je uvedeno u periodika

<nonSort>The</nonSort>
<title>Vogue</title>

u monografie

<nonSort>The</nonSort>
<title>Beatles</title>

Správně by měla být za členem v nonSort mezera. Při sestavení plného názvu se zřetězí nonSort a title bez použití mezery, aby se mohly používat členy zřetězené s následujícím slovem, např. francouzské L' Uvedené příklady by se pak interpretovaly špatně jako TheVogue a TheBeatles

Více je to popsáno zde https://www.loc.gov/standards/mods/userguide/titleinfo.html#nonsort s příklady

<nonSort>The </nonSort><title>Trial</title>
<nonSort>L'</nonSort><title>Enfant</title>
MirkaBenackova commented 3 years ago

Dobrý deň, skúmala som, čo prípadná chýbajúca medzera urobí s dátami. Transformačná šablóna z MARCu do MODSu sa riadi podľa pravidiel MARC21, tj. pokiaľ je v katalogizačnom zázname uvedené odfiltrovanie danej medzery do nonSort, správne sa to prevedie aj do MODS záznamu. Hľadala som tiež v Krameriu nejaké záznamy, ktoré s nonSort pracujú, a v tam prítomných metadátach som nikde medzeru za v nonSort filtrovanou časťou nenašla - a predsa sa názov zobrazil správne a nie spojito. Takže z nášho pohľadu táto zmena nie je úplne nutná.

honza-rychtar commented 3 years ago

Kramerius tam tu mezeru při indexaci i při interpretaci MODS na straně klienta přidává. Takže Kramerius tu chybu částečné "opraví" tím, že chybně přidá mezeru na nonSort. Problém je ale u těch členů bez mezery, např. https://kramerius.mzk.cz/search/api/v5.0/item/uuid:e1cb4810-d143-11e8-bc37-005056827e51/streams/BIBLIO_MODS

<mods:titleInfo>
<mods:nonSort>L'</mods:nonSort>
<mods:title>Enfant Jésus de Prague</mods:title>
</mods:titleInfo>

To se zaindexuje jako "title": "L' Enfant Jésus de Prague" A to už je špatně.

V novém indexeru Krameria a v klientovi Krameria přidáme detekci členu, aby se člen s názvem spojil správně s i bez mezery v nonSort.

Takže by stálo za to zvážit úpravu standardu a MARC to MODS šablony - Kramerius to zobrazí správně v obou verzích, ale v datech by dál byla ta správná verze.

honza-rychtar commented 3 years ago

Ještě jedna poznámka ke znění standardu pro nonSort element

Část názvu, která má být vynechána při vyhledávání např.: <nonSort>The</nonSort> <title>Beatles</title>

Nemá to být Část názvu, která má být vynechána při vyhledávání

Správně by mělo být Část názvu, která má být vynechána při řazení

MirkaBenackova commented 3 years ago

Dobrý deň, viete nám povedať, odkiaľ sú dáta u ktorých ste si toho všimol? NK/MZK, prípadne niečo iné? Nicméně, ešte raz sme sa na zmienený problém pozerali, ale v transformačnej šablóne naozaj problém nie je. To, či tam medzera je, alebo nie, sa odvíja od hodnoty druhého indikátoru poľa 245, kde sa udá, koľko znakov sa má pri radení vylúčiť (takto to udávajú aj katalogizačné pravidlá a do počtu znakov sa započítava aj medzera). Presne takto sa to v nonSort aj zobrazí. Šablóna v tomto prípade nikde medzeru nepridáva ani neodoberá. Takže sa musí jednať o nastavenie Krameria. Príklad ale samozrejme v štandarde upraviť môžeme.

K Vašej druhej poznámke o znení štandardu - so zmenou formulácie problém nemáme, navrhujeme zmeniť na část názvu, která má být vynechána při vyhledávání a řazení" .

rzeh4n commented 3 years ago

Např. tady: https://k7-test.mzk.cz/uuid/uuid:7aa47a73-db1f-4c86-b946-5524bb2ef12f, tj. MZK

<mods:titleInfo>
      <mods:nonSort>La</mods:nonSort>
      <mods:title>Motte</mods:title>
    </mods:titleInfo>

Celý název je pak "La Motte", nikoliv "LaMotte". Je to zapsáno ve shodě s příklady v DMF, ale nesprávně podle specifikace MODS, která mluví jasně:

Punctuation may or may not be included within the non-sort value depending upon whether it is part of the sorting or non-sorting data. For instance, "The" as an initial article is input with a space following the characters, while other data might not require a space (e.g. "L'"). <nonSort>The </nonSort><title>Trial</title> <nonSort>L'</nonSort><title>Enfant</title>

MODSový výsledek konverze je špatně, tudíž je problém buď v konverzi (Marc -> MODS), nebo spíš v datech (Marc), bez ohledu na Krameria, nebo jiného konzumenta dat v balíčcích podle DMF. Což je ale problém digitalizační linky, resp. katalogu. Tady řešíme text DMF, podle něhož by se výroba balíčků měla řídit, ať už je zdrojem popisných metadat cokoliv, ne nutně Marc21. A v něm jsou příklady v rozporu s MODS.

PavlinaKocisova commented 3 years ago

Dobrý den, jde Vám tedy jen o to, abychom tuto mezeru explicitně doplnili do specifikace DMF? S touto změnou počítáme, a do další verze DMF popis pole i příklad změníme na následující:

Část názvu, která má být vynechána při vyhledávání a indexaci. Za vynechanou částí názvu (členem, slovem) je nutné ponechat mezeru, aby byl celý název v Krameriu zobrazován korektně. Mezeru nenahrazujte náhradními znaky. ![nonsort](https://user-images.githubusercontent.com/26895177/123794861-a3aafd00-d8e3-11eb-933a-e842396dedd1.png) Zde na Githubu k této problematice založíme specifické vlákno s doporučením best practice.
rzeh4n commented 3 years ago

Ano, tady jde o tu formulaci specifikace.

PavlinaKocisova commented 2 years ago

Vyřešeno ve verzích DMF Periodika 1.9 a Monografie 2.0.