arkivverket / noark5-standard

Noark 5 versjon 5.0 – innspill før versjonering til Noark 5 versjon 5.1
Other
3 stars 5 forks source link

Samkjør katalognavn i forskrift og standard for hvor arkivdokumenter skal plasseres #51

Closed petterreinholdtsen closed 3 years ago

petterreinholdtsen commented 4 years ago

Dette er en mangelmelding sendt inn til Arkivverket, se også https://github.com/petterreinholdtsen/noark5-tester/blob/master/mangelmelding/sendt/2019-03-28-noark5-forskrift-katalog.md . Det er overført fra https://github.com/arkivverket/noark5-tjenestegrensesnitt-standard/issues/88 .


       Prosjekt  Noark 5
       Kategori  Versjon 5.0
    Alvorlighet  protest
   Meldingstype  trenger klargjøring 
Brukerreferanse  pere@hungry.com
    Dokumentdel  krav 6.4.15:
     Sidenummer  98
    Linjenummer  n/a
Innsendingsdato  2019-03-28

Denne teksten er del av en samling innspill til Noark5-standarden tilgjengelig fra https://github.com/petterreinholdtsen/noark5-tester/.

Beskrivelse

Det bør beskrives på en entydig og klar måte hvor arkivdokumentfilene skal ligge i en avleveringspakke. I dag spriker beskrivelsen mellom forskrift, Noark 5-spesifikasjon og praksis.

Følgende står i Riksarkivarens forskrift), paragraf 5-31 b) og c):

§ 5-31. Organisering av datafiler i avleverings- eller deponeringspakke

(1) Filene som utgjør arkivuttrekket, skal være organisert på følgende måte:

[...]

b) For arkivdokumenter skal det opprettes en katalog med navnet DOKUMENT på første nivå under rotkatalogen på vedkommende lagringsenhet. Dokumentfilene skal samles på andre nivå under rotkatalogen og eventuelt struktureres i underkataloger. Dersom et enkelt arkivdokument består av flere filer, skal disse samles i én katalog med et entydig navn. Filformat for arkivdokumenter angis ved filendelse, f.eks. XML, PDF eller TIF.

(Forskriften nevner også katalogen 'RAPPORT', men den finner jeg ikke omtalt i noen Noark 5-standard.)

Katalognavnet 'DOKUMENT' er forskjellig fra det som står i Noark 5 version 3.1 side 97 og Noark 4.0 side 99 (i PDF, mangler sidetall):

Filene i en avleveringspakke

[...]

F) Dokumentfilene. Disse skal ligge i en underkatalog kalt dokumenter. Denne katalogen kan struktureres i nye underkataloger etter fritt valg, f.eks. en underkatalog for hver måned. Det er ingen krav til navngiving av dokumentfilene, men filenes endelse skal angi arkivformat: pdf, tif, txt osv.

I Noark 5 versjon 5 side 98 står det derimot følgende i krav 6.4.15:

Dokumentene skal ligge i en underkatalog kalt DOKUMENT. Denne katalogen kan struktureres i nye underkataloger etter fritt valg. Dokumentfilene endelse skal angi arkivformat: pdf, tif, txt osv.

På Noark 5 versjon 5 side 109 i del 6.4.9 (Arkivdokumentene) står det derimot følgende:

Arkivdokumentene skal lagres i en egen underkatalog i avleveringspakken, og denne underkatalogen kan struktureres i nye underkataloger etter behov. Referansen fra arkivstrukturen til dokumentfilene vil ligge i dokumentobjektet, dvs. på laveste nivå i strukturen. Alle dokumentfiler som det blir referert til i arkivstruktur.xml, skal være med i uttrekket. Dessuten må ikke uttrekket inneholde noen dokumentfiler som mangler referanse fra dokumentobjektet. Referansen fra arkivstrukturen skal vre relativ til dokumentfilene, dvs. inneholde hele «stien» til dokumentet - f.eks. slik: dokumenter/2010/januar/123456789.pdf.

Underkatalogen skal altså enten hete «DOKUMENT» eller «dokumenter» alt etter hvor en leser, men er ikke mulig at en og samme katalog kan hete begge deler samtidig og det er dermed ikke mulig å følge både standard og forskrift samtidig. Er det noen gode grunner til å bruke store bokstaver i katalognavnene? Det virker mer fornuftig på meg å bruke små bokstaver i katalognavn.

Dagens praksis er at katalogen heter «dokumenter», hvilket ikke er overrraskende når det har vært spesifisiert i Noark 3 fra 2013-03-22 og 4 fra 2016-12-01. Dagens praksis kan for eksempel observeres i testfilene som følger med Arkivverkets Arkade 5 under src/Arkivverket.Arkade.CLI.Tests/TestData/N5-archive/ og src/Arkivverket.Arkade.Core.Tests/TestData/Noark5/ samt Documasters Noark Extraction validator samples.

Det virker å være minst jobb og lavest kostnader for samfunnet totalt sett å endre forskrift og en av formuleringene i Noark 5 versjon 5 (som kom 2018-12-06) og ingen har implementert så langt, enn å endre alle uttrekkssystem som er laget for Noark 3 og 4, samt verktøy som Arkade 5 som er laget for å verifisere slike uttrekk.

Ønsket endring

Det viktigste er at det brukes samme katalognavn overalt. Jeg foreslår å endre Riksarkivarens forskrift og Noark 5-standarden til å bruke katalognavn med små bokstaver, dvs. «dokumenter» og «rapporter», for å være i tråd med mangeårig innarbeidet praksis med bakgrunn i spesifikasjonen fra Noark 3 og 4.

monadani commented 4 years ago

Sees på, men ja, RAF og standard må bruke samme benevnelse. Sjekker internt med de som reviderer RAF kap 5, om her her kommet endringer i §5-31+

sturtzel commented 4 years ago

Tekstkonstant i ESA avlevering som p.t. følger forskrift (DOKUMENT). Arkade aksepterer også forskrift nå.

At det må være konsistent er vi enig i, det har vært litt jobb her for å tilpasse til Arkade som en periode ikke fulgte forskriften.

joergen-vs commented 4 years ago

Arkade fulgte på det tidspunkt standarden. Har siden tatt hensyn for dokument eller dokumenter, med store og små bokstaver. Ville det være aktuelt å føre dokumentmappen inn i arkivuttrekk.xml, så man kan vite hvilken mappe det er snakk om, uten å gå på hvillken versjon av standard man jobber med?

image

sturtzel commented 4 years ago

Helt greit om det i en revisjon av Noark legges ut et element som angir hvor dokumentene befinner seg. Da trenger man ikke ha et fast katalognavn heller, noe som antagelig vil være en fordel.

hanber commented 4 years ago

Enig.

oivkru commented 3 years ago

Frem til Noark 5 versjon 5 var det avvikende krav i standarden og forskriften. Siden forskriften står over standarden, er det forskriften som skal følges hvis det ikke er samsvar. Derfor ble standarden også oppdatert med versjon 5. Det at det fortsatt står noen annet et sted i teksten, er en feil som må rettes opp. (I standarden er det sånn at krav står over teksten, for teksten skal ikke inneholde krav.)

Spørsmålet er om ikke dette bør tas helt ut av standarden, ref. #47

sturtzel commented 3 years ago

Det er mest ryddig om standarden ikke gjentar forskriften. Den kan evt. henvise.

petterreinholdtsen commented 3 years ago

[Ragnar Sturtzel]

Det er mest ryddig om standarden ikke gjentar forskriften. Den kan evt. henvise.

En ting jeg har lurt på er fornuften i at forskriften oppgir en teknisk detalj som katalognavn? Det burde jo være opp til hvert enkelt avleveringsformat hvordan de ønsker strukturere filene i avleveringspakken.

Og hvorfor bryr Noark 5 seg om katalognavn i det hele tatt, når filstien er oppgitt i XML-en? Det hadde jo holdt å kreve at filene skal ligge i en underkatalog og eventuelt foreslå et navn på den. Hvis det er mange filer kan det jo være like fornuftig å dele det på flere kataloger.

Når det er sagt, så tenker jeg at teksten i Noark 5 bør beskrive alt en trenger å vite for å lage et uttrekk, slik at en slipper spore opp informasjonsfragmenter fra flere tiår gamle rundskriv og forskrifter i tillegg når en implementerer et uttrekk. Det er for meg et viktigere poeng enn å unngå duplisering, og hvis en vil unngå duplisering bør katalognavnet fjernes fra forskriften, ikke fra Noark 5.

-- Vennlig hilsen Petter Reinholdtsen