Closed Bystroushaak closed 9 years ago
Dobrý den,
omlouvám se opožděnou reakci, ale ke kontrole příkladu jsem se dostal až dnes. Odpovědi jsou v textu dole. Celkový feedback k balíčku Vám dám na zítřejší schůzce.
S pozdravem
Bc. Jaroslav Kvasnica Vedoucí oddělení archivace webu Národní knihovna České republiky Klementinum 190, Praha 1 jaroslav.kvasnica@nkp.cz|www.nkp.cz +420 734 850 016 | +420 221 663 439 Budova: CDH Hostivař Místnost: 420
Dobrý den.
V příloze posílám ukázku výstupu z našich scriptů. Pokud budete mít chvíli volna, mohl by jste se prosím podívat, jestli je vše správně?
Z té specifikace mi pár věcí nebylo úplně jasných, tak jsem spíše odhadoval:
- Co jsem tak pochopil, v SIP balíčku používáme metadata ve formátu MODS. Na stránce 7 je v podkapitole Pojmenování souborů zmíněn pouze METS ve formátu mets_nk-00027x.xml, stejně tak na straně 10 je v info.xml souboru zmíněn pouze tag
. Prozatím jsem použil tuto konvenci, ale nejsem si jistý, zda by se nemělo jednat o MODS tag a pojmenování mods_nk-000027x.xml.
Tady byla bohužel chyba ve specifikaci. Soubor METS je až v AIP balíčku, který je vytvořen až při ingestu do LTP. Proto Vy byste neměl tag
- Dále to pojmenování souboru „mets_nk-000027x.xml“ – ve specifikaci je zmíněn prefix, hraje nějakou roli i to číslo?
Co se týče pojmenování souborů, tak všechny se skládájí z prefixu, identifikátoru a přípony. Použitý identifikátor musí být vždy stejný a uložený v metadatech. Jako příklad vezmu Vaše vygenerované UUID v dalším dotaze.
Adresář s balíčkem se správně jmenuje: b37d9bf1-8f00-4589-83fd-e2eef468aedc
Všechny soubory by se tedy měly jmenovat takto: info_b37d9bf1-8f00-4589-83fd-e2eef468aedc.xml MD5_b37d9bf1-8f00-4589-83fd-e2eef468aedc.xml mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc.xml oc_b37d9bf1-8f00-4589-83fd-e2eef468aedc.pdf
atd.
Pokud by se nějaký typ soubor opakoval, tak se používá postupné číslování např:
mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc_0001.xml mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc_0002.xml mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc_0003.xml
atd.
Další důležitou částí je uložení identifikátoru do metadat, pokud tedy vygenerujete UUID a nepoužijete již existující identifikátor (což je úplně v pořádku), pak musíte do MODS vepsat:
<mods:identifier type=“uuid">b37d9bf1-8f00-4589-83fd-e2eef468aedc/mods:identifier
- Na stránce 10 je pak zmíněn tag
, kde se má nacházet název kořenového adresáře balíčku, doslova je tam, cituji „název kořenového adresáře balíčku viz kap. 6“. Kapitola 6 ale ve specifikaci není. Tak nějak jsem odhadl, že název adresáře s balíčkem by měl být UUID4 string, ale nejsem si tím jistý.
viz předchozí odpověď.
- Tag
je v ukázce kterou jste popsal kód ABA001, který jsem vysledoval v Aleph záznamech v poli 910, podpoli a. Nejsem si jistý, jestli je to správně, nebo ne.
tag creator bych nechal k diskuzi na zítra. V NDK se používá tvůrce balíčku - tedy knihovna. Ale myslím, že pro edeposit by sem bylo lepší uvést originálního vlastníka e-knihy
- V info souboru jsou pak ve všech ukázkách pro oddělení cest použita windowsovská lomítka \, nevím nakolik bude vadit, když používám klasická unixová / - přeci jen, celý server běží na unixu.
To není problém, jediný soubor, kde je to striktně definované je MD5
I've sent the fixed files to mr. Kvasnica.
Bugs:
and