edeposit / edeposit.amqp.ltp

Bindings to Long Time Preservation system
MIT License
0 stars 0 forks source link

Fix export bugs #11

Closed Bystroushaak closed 9 years ago

Bystroushaak commented 9 years ago

Bugs:

<!-- špatný název souboru 
     špatný název souboru i u MD5

-->

<?xml standalone="yes" version="1.0" encoding="utf-8"?>
<info>
    <created>2014-10-07T14:39:01</created>
    <metadataversion>1.0</metadataversion>
    <packageid>b37d9bf1-8f00-4589-83fd-e2eef468aedc</packageid>
    <mainmets>/metadata/meds_nk-edep-22047.xml</mainmets> <!-- nevyplňuje se pro SIP balíček -->
    <titleid type="isbn">978-80-904248-2-1</titleid>
    <titleid type="ccnb">cnb002159444</titleid>
    <titleid type="urnnbn">http://toc.nkp.cz/NKC/201101/contents/nkc20112159444_1.pdf</titleid> <!-- URN:NBN se nyní nepřiděluje,
     proto by tu tento element neměl být. Odkaz přesunout do poznámky??? -->
    <collection>edeposit</collection>
    <institution>CZ.NIC</institution>
    <creator>ABA001</creator>
    <size>3584</size>
    <itemlist itemtotal="1"> <!-- zde by měly být vypsané i soubory s metadaty-->
        <item>/original/oc_nk-edep-22047.pdf</item>
    </itemlist>
    <checksum checksum="4618a5165bd82882b574ecd36e89ea73" type="MD5">/MD5.md5</checksum>
</info>

and

<!-- název souboru špatně
    html entity převést na text
-->

<mods:modsCollection xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:mods="http://www.loc.gov/mods/v3" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-4.xsd">
  <mods:mods version="3.4"> <!-- chybí atribut ID="MODS_TITLE_0001" -->
    <mods:titleInfo>
      <mods:title>Pono&#345;me se do Python(u) 3 =</mods:title>
      <mods:subTitle>Dive into Python 3</mods:subTitle>
    </mods:titleInfo>
    <mods:titleInfo type="alternative">
      <mods:title>Python 3</mods:title>
    </mods:titleInfo>
    <mods:titleInfo type="alternative">
      <mods:title>Dive into Python 3</mods:title>
    </mods:titleInfo>
    <mods:name type="personal" usage="primary">
      <mods:namePart>Pilgrim, Mark</mods:namePart>
      <mods:namePart type="date">1972-</mods:namePart>
      <mods:role>
        <mods:roleTerm authority="marcrelator" type="code">aut</mods:roleTerm>
      </mods:role>
    </mods:name>
    <mods:typeOfResource>text</mods:typeOfResource>
    <mods:genre authority="marcgt">handbook</mods:genre> <!-- <genre>electronic title</genre> -->
    <mods:genre authority="czenas">p&#345;&#237;ru&#269;ky</mods:genre>
    <mods:genre authority="eczenas">handbooks, manuals, etc</mods:genre>
    <mods:originInfo>
      <mods:place>
        <mods:placeTerm type="text" authority="marccountry">xr-</mods:placeTerm> <!-- v tomto případě má být type="code" -->
      </mods:place>
      <mods:place>
        <mods:placeTerm type="text">Praha</mods:placeTerm>
      </mods:place>
      <mods:publisher>CZ.NIC</mods:publisher>
      <mods:dateIssued>c2010</mods:dateIssued>
      <mods:dateIssued encoding="marc">2010</mods:dateIssued>
      <mods:issuance>monographic</mods:issuance> <!-- podrobnější třídění? single part, ... -->
    </mods:originInfo>
    <mods:language>
      <mods:languageTerm authority="iso639-2b" type="code">cze</mods:languageTerm>
    </mods:language>
    <mods:language objectPart="translation">
      <mods:languageTerm authority="iso639-2b" type="code">eng</mods:languageTerm>
    </mods:language>
    <mods:physicalDescription>
      <mods:form authority="marccategory">text</mods:form>
      <mods:form authority="marcsmd">regular print</mods:form> <!-- tady by mělo být electronic, elektronický zdroj apod. -->
      <mods:extent>430 s. : il. ; 25 cm</mods:extent> <!-- buď jen počet stran nebo nic-->
    </mods:physicalDescription>
    <mods:targetAudience authority="marctarget">adult</mods:targetAudience>
    <mods:note type="statement of responsibility">Mark Pilgrim</mods:note>
    <mods:note>P&#345;elo&#382;eno z angli&#269;tiny</mods:note>
    <mods:note type="bibliography">Obsahuje bibliografick&#233; odkazy</mods:note>
    <mods:subject authority="czenas">
      <mods:topic>Python (programovac&#237; jazyk)</mods:topic>
    </mods:subject>
    <mods:subject authority="czenas">
      <mods:topic>programov&#225;n&#237;</mods:topic>
    </mods:subject>
    <mods:subject authority="eczenas">
      <mods:topic>Python (computer program language)</mods:topic>
    </mods:subject>
    <mods:subject authority="eczenas">
      <mods:topic>programming</mods:topic>
    </mods:subject>
    <mods:classification authority="udc">004.438Python</mods:classification>
    <mods:classification authority="udc">004.42</mods:classification>
    <mods:classification authority="udc">(035)</mods:classification>
    <mods:location> 
      <mods:physicalLocation authority="siglaADR">ABA001</mods:physicalLocation>
      <mods:url displayLabel="Obsah" usage="primary display">http://toc.nkp.cz/NKC/201101/contents/nkc20112159444_1.pdf</mods:url>
    </mods:location>
    <mods:relatedItem type="series">
      <mods:titleInfo>
        <mods:title>CZ.NIC</mods:title>
      </mods:titleInfo>
    </mods:relatedItem>
    <!-- doplnit identifier UUID, který se používá pro název souborů a adresáře -->
    <mods:identifier type="ccnb">cnb002159444</mods:identifier>
    <mods:identifier type="isbn">978-80-904248-2-1 (bro&#382;.)</mods:identifier>
    <mods:identifier type="oclc">707609688</mods:identifier>
    <mods:recordInfo>
      <mods:descriptionStandard>aacr</mods:descriptionStandard>
      <mods:recordContentSource authority="marcorg">BOA001</mods:recordContentSource>
      <mods:recordCreationDate encoding="marc">110104</mods:recordCreationDate>
      <mods:recordChangeDate encoding="iso8601">20120110091918.0</mods:recordChangeDate>
      <mods:recordIdentifier source="CZ-PrNK">nkc20112159444</mods:recordIdentifier>
      <mods:recordOrigin>machine generated</mods:recordOrigin>
      <mods:languageOfCataloging>
        <mods:languageTerm authority="iso639-2b" type="code">cze</mods:languageTerm>
      </mods:languageOfCataloging>
    </mods:recordInfo>
  </mods:mods>
</mods:modsCollection>
Bystroushaak commented 9 years ago

Dobrý den,

omlouvám se opožděnou reakci, ale ke kontrole příkladu jsem se dostal až dnes. Odpovědi jsou v textu dole. Celkový feedback k balíčku Vám dám na zítřejší schůzce.

S pozdravem

Bc. Jaroslav Kvasnica Vedoucí oddělení archivace webu Národní knihovna České republiky Klementinum 190, Praha 1 jaroslav.kvasnica@nkp.cz|www.nkp.cz +420 734 850 016 | +420 221 663 439 Budova: CDH Hostivař Místnost: 420

Dobrý den.

V příloze posílám ukázku výstupu z našich scriptů. Pokud budete mít chvíli volna, mohl by jste se prosím podívat, jestli je vše správně?

Z té specifikace mi pár věcí nebylo úplně jasných, tak jsem spíše odhadoval:

  1. Co jsem tak pochopil, v SIP balíčku používáme metadata ve formátu MODS. Na stránce 7 je v podkapitole Pojmenování souborů zmíněn pouze METS ve formátu mets_nk-00027x.xml, stejně tak na straně 10 je v info.xml souboru zmíněn pouze tag . Prozatím jsem použil tuto konvenci, ale nejsem si jistý, zda by se nemělo jednat o MODS tag a pojmenování mods_nk-000027x.xml.

Tady byla bohužel chyba ve specifikaci. Soubor METS je až v AIP balíčku, který je vytvořen až při ingestu do LTP. Proto Vy byste neměl tag vyplňovat vůbec a pojmenování souborů by mělo být s prefixem mods_

  1. Dále to pojmenování souboru „mets_nk-000027x.xml“ – ve specifikaci je zmíněn prefix, hraje nějakou roli i to číslo?

Co se týče pojmenování souborů, tak všechny se skládájí z prefixu, identifikátoru a přípony. Použitý identifikátor musí být vždy stejný a uložený v metadatech. Jako příklad vezmu Vaše vygenerované UUID v dalším dotaze.

Adresář s balíčkem se správně jmenuje: b37d9bf1-8f00-4589-83fd-e2eef468aedc

Všechny soubory by se tedy měly jmenovat takto: info_b37d9bf1-8f00-4589-83fd-e2eef468aedc.xml MD5_b37d9bf1-8f00-4589-83fd-e2eef468aedc.xml mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc.xml oc_b37d9bf1-8f00-4589-83fd-e2eef468aedc.pdf

atd.

Pokud by se nějaký typ soubor opakoval, tak se používá postupné číslování např:

mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc_0001.xml mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc_0002.xml mods_b37d9bf1-8f00-4589-83fd-e2eef468aedc_0003.xml

atd.

Další důležitou částí je uložení identifikátoru do metadat, pokud tedy vygenerujete UUID a nepoužijete již existující identifikátor (což je úplně v pořádku), pak musíte do MODS vepsat:

<mods:identifier type=“uuid">b37d9bf1-8f00-4589-83fd-e2eef468aedc/mods:identifier

  1. Na stránce 10 je pak zmíněn tag , kde se má nacházet název kořenového adresáře balíčku, doslova je tam, cituji „název kořenového adresáře balíčku viz kap. 6“. Kapitola 6 ale ve specifikaci není. Tak nějak jsem odhadl, že název adresáře s balíčkem by měl být UUID4 string, ale nejsem si tím jistý.

viz předchozí odpověď.

  1. Tag je v ukázce kterou jste popsal kód ABA001, který jsem vysledoval v Aleph záznamech v poli 910, podpoli a. Nejsem si jistý, jestli je to správně, nebo ne.

tag creator bych nechal k diskuzi na zítra. V NDK se používá tvůrce balíčku - tedy knihovna. Ale myslím, že pro edeposit by sem bylo lepší uvést originálního vlastníka e-knihy

  1. V info souboru jsou pak ve všech ukázkách pro oddělení cest použita windowsovská lomítka \, nevím nakolik bude vadit, když používám klasická unixová / - přeci jen, celý server běží na unixu.

To není problém, jediný soubor, kde je to striktně definované je MD5

Bystroushaak commented 9 years ago

I've sent the fixed files to mr. Kvasnica.