arkivverket / noark5-standard

Noark 5 versjon 5.0 – innspill før versjonering til Noark 5 versjon 5.1
Other
3 stars 5 forks source link

Eksplisitt deklarasjon av mapper #148

Open joergen-vs opened 8 months ago

joergen-vs commented 8 months ago

Med mediekonverterte arkiver kom det et behov for å kunne angi hvilken mappe inneholdt dokumentene. Og med skjema for arkivbeskrivelse har det nesten alltid kommet inn en egen mappe for systemdokumentasjon.

I den forbindelse ble det lagt til ny bruk av addml [sommeren 2021] for å si hvilken mappe inneholdt hva. Nå identifiserer man mappe og antall filer i den, med følgende;

<dataObject name="dokumenter">
  <properties>
    <property name="folder">
      <properties>
        <property name="name">
          <value>Filer</value><!-- navn på dokument-mappe -->
        </property>
      </properties>
    </property>
    <property name="info">
      <properties>
        <property name="numberOfOccurrences">
          <value>dokumenter</value>
          <properties>
            <property name="filePath">
              <value>*.*</value>
            </property>
            <property dataType="integer"
              name="value">
              <value>2630</value><!-- antall filer i dokument-mappe -->
            </property>
          </properties>
        </property>
      </properties>
    </property>
  </properties>
</dataObject>
<dataObject name="dokumentasjon">
  <properties>
    <property name="folder">
      <properties>
        <property name="name">
          <value>SYSDOK</value><!-- navn på mappe med systemdokumentasjon -->
        </property>
      </properties>
    </property>
    <property name="info">
      <properties>
        <property name="numberOfOccurrences">
          <value>dokumenter</value>
          <properties>
            <property name="filePath">
              <value>*.*</value>
            </property>
            <property dataType="integer"
              name="value">
              <value>2</value>
            </property>
          </properties>
        </property>
      </properties>
    </property>
  </properties>
</dataObject>

Det samme gjelder for andre fagsystem / register-data med dokumenter.

Slik som f.eks. arkivstruktur er deklarert med et navn på overordnet dataObject, er disse objektene deklarert med henholdsvis "dokumenter" og "dokumentasjon" for å navngi inneholdet.

Spørsmål: Ville dette være aktuelt å ta inn i et vedlikehold av standarden?

petterreinholdtsen commented 8 months ago

[Jørgen]

Med mediekonverterte arkiver kom det et behov for å kunne angi hvilken mappe inneholdt dokumentene. Og med skjema for arkivbeskrivelse har det nesten alltid kommet inn en egen mappe for systemdokumentasjon.

Snakker du her om mapper på disken, eller Noark 5-mapper?

Hvis jeg forstår spørsmålet riktig, så er ønsket å markere i XML-fil i uttrekket hvilke filer som hører til arkivmapper, og hvilke som hører til dokumentasjon om arkivsystemet, når begge er del av et arkivuttrekk. Stemmer dette?

I den forbindelse ble det lagt til ny bruk av addml [sommeren 2021] for å si hvilken mappe inneholdt hva. Nå identifiserer man mappe og antall filer i den, med følgende;

Har du URL til hvor det ble lagt til, og detaljer om hva som ble endret?

Spørsmål: Ville dette være aktuelt å ta inn i et vedlikehold av standarden?

Hvis det trengs for å bringe Noark 5 på linje med relaterte beskrivelser, så tenker jeg at det bør gjøres. Hva konkret tenker du bør endres i Noark 5-spesifikasjonsteksten? Det er litt uklart fra forslaget ditt.

-- Vennlig hilsen Petter Reinholdtsen

joergen-vs commented 8 months ago

Snakker du her om mapper på disken, eller Noark 5-mapper?

Mapper på disk. Så om den heter DOKUMENT, dokumenter eller Filer, vil arkivuttrekk.xml peke på den. Så i dag har vi

I arkivuttrekk.xml er de/noen deklarert

Forslaget blir da å legge til [tar med arkiv-nivå i arkivuttrekk.xml]:

Har du URL til hvor det ble lagt til, og detaljer om hva som ble endret?

Nei, dette skjedde i epost-tråder og uthjemling av praksis. Fungerer nå uavhengig av skanner-aktør.

Hvis det trengs for å bringe Noark 5 på linje med relaterte beskrivelser, så tenker jeg at det bør gjøres. Hva konkret tenker du bør endres i Noark 5-spesifikasjonsteksten? Det er litt uklart fra forslaget ditt.

Forslaget baserer seg på eksisterende informasjon:

Dokumentene skal ligge i en underkatalog kalt DOKUMENT. Denne katalogen kan struktureres i nye underkataloger etter fritt valg.

Så forslaget er å deklarere DOKUMENT på samme måte som arkivstruktur m.fl. Eneste mulige sted som blir påvirket er 6.4.22. Den inneholder i dag punktliste over informasjon som skal med i arkivuttrekk.xml, e mulig endring er et tilleggspunkt om "Antall dokumentasjons-filer i uttrekket". Utover det blir eneste endringen en ny mal for arkivuttrekk.xml.

En oppklaring: i 6.4.15 heter mappen DOKUMENT. dataobjektet i arkivuttrekk.xml som angir dokumentmappen kan angis til DOKUMENT i stedet for dokumenter, som foreslått over. Så blir den mer i tråd med standarden.

<dataObject name="DOKUMENT">
  <properties>
    <property name="folder">
      <properties>
        <property name="name">
          <value>Filer</value><!-- navn på dokument-mappe -->
        </property>
      </properties>
    </property>
    <property name="info">
      <properties>
        <property name="numberOfOccurrences">
          <value>dokumenter</value>
          <properties>
            <property name="filePath">
              <value>*.*</value>
            </property>
            <property dataType="integer"
              name="value">
              <value>2630</value><!-- antall filer i dokument-mappe -->
            </property>
          </properties>
        </property>
      </properties>
    </property>
  </properties>
</dataObject>
sturtzel commented 8 months ago

Jeg forutsetter at de foreslåtte endringene ikke gjør at dagens løsninger for avlevering etter Noark 5.5 vil feile (at dette blir en bakoverkompatibel utvidelse).

Alt som er referert fra arkivstrukturen kan ligge i dagens katalog.

Jeg synes ikke det kommer klart frem hva som skal ligge i katalogen dokumentasjon. Beskrivelse av prosessen med produksjon? Beskrivelse av systemet som har produsert uttrekket?

joergen-vs commented 8 months ago

Jeg forutsetter at de foreslåtte endringene ikke gjør at dagens løsninger for avlevering etter Noark 5.5 vil feile (at dette blir en bakoverkompatibel utvidelse).

I dag er det underforstått hvor en finner dokumentene, og det må det også tillate å være, om man går for en bakoverkompatibel versjon. Vil tro at f.eks. Arkade må operere med "hvis ikke deklarert, fall tilbake på ".

Jeg synes ikke det kommer klart frem hva som skal ligge i katalogen dokumentasjon.

Arkivforskriften § 5-32 B, med videre lenking. I disse dager gjelder det først og fremst skjema for arkivbeskrivelse.

Edit: Og om du bruker egne verktøy som tar i bruk andre filer / logger / rapporter, står man fritt til å legge til de. På samme måte som dagens arkivuttrekk.xml er en mal, kan det legges til ytterligere xml-filer.

En beskrivelse av Noark i addml belager seg på et krav til visse xml-er og andre valgfrie (etter hva systemet leverer). Men beskrivelsen skal gjelde hele datasettet, som gjelder resten av innholdet, hva angår dokumentasjon / SYSDOK-mapper, rapporter fra eksport m.fl.

Og Arkade skal kunne kjøre Noark-tester på Noark-innholdet, men også ta høyde for annet innhold, som å kontrollere materiale som ikke er beskrevet [i addml-en].

Eksempel på "mer":

petterreinholdtsen commented 3 months ago

[Jørgen]

I dag er det underforstått hvor en finner dokumentene, og det må det også tillate å være, om man går for en bakoverkompatibel versjon. Vil tro at f.eks. Arkade må operere med "hvis ikke deklarert, fall tilbake på ".

Hvis jeg forstår deg riktig, så er ditt forslag å forlate kravet i Arkivforskriften § 5-31,

"For arkivdokumenter skal det opprettes en katalog med navnet DOKUMENT på første nivå under rotkatalogen på vedkommende lagringsenhet. Dokumentfilene skal samles på andre nivå under rotkatalogen og eventuelt struktureres i underkataloger. Dersom et enkelt arkivdokument består av flere filer, skal disse samles i én katalog med et entydig navn. Filformat for arkivdokumenter angis ved filendelse, f.eks. XML, PDF eller TIF."

Intet ville glede meg mer, da kravet om en katalog bestående av kun store bokstaver, og en filstruktur der formatinformasjonen i arkivstruktur.xml dupliseres med dårligere oppløsning og formålsløs navnebegresning (jeg vil heller lagre filene med navn avledet fra innholdets sjekksum, for automatisk deduplisering) er for meg helt meningsløst.

Uansett tenker jeg det bør eksplisitt nevnes at alle nye katalognavn for arkivdokumenter vil være i strid med Arkivforskriften, og neppe kan godkjennes helt uten å oppdatere forskriften i samme slengen.

-- Vennlig hilsen Petter Reinholdtsen