arkivverket / arkade5

Arkade 5 - testverktøy for arkivuttrekk
http://arkade.arkivverket.no
GNU Affero General Public License v3.0
12 stars 17 forks source link

Validering av DIAS i .tar og utpakket struktur (ønske om ny funksjonalitet) #162

Open solfeggietto opened 1 year ago

solfeggietto commented 1 year ago

Arkade 5 v2.9.1 er no meget god på på pakking av SIP/AIP, test av Noark 5 (og SIARD via DBPTK), verktøy for PRONOM filformat-analyse med Gyldig/Ikke gyldig arkivformat, Validering av arkivformat PDF/A og Lag metadata-eksempelfil.

Validering av DIAS i .tar og upakket struktur er en STOR mangel i statlig og kommunal produksojnslinje for bevaring av digitalt skapt arkivmateriale!

Ønske om ny funksjonalitet: Arkade 5 verktøy for validering av DIAS som format

Viktigheten av å validere DIAS-pakker, gjør at Arkivverket burde prioritere å få dette med som en del av Arkade 5-produktet!

erikaaberg commented 1 year ago

Ang. punkter over.

1: Arkade kan nå validere DIAS inne i en tar. Men da kun som mappe/filstruktur 2: Vi er litt usikre på hva som menes med "alle" elementer, men se nedenfor 3: Filpekere og sjekksummer er mulig, men krever en del utvikling 4: Tja - si det

Generelt - vi vurderer om vi kan unngå å pakke ut tar-filer før vi tester - og evt produserer IP-er. Dette kan gjøres ved å "streame" data i stedet for å pakke ut til disk. Men det er et godt stykke arbeid, så en beslutning er foreløpig ikke tatt.

solfeggietto commented 1 year ago

Spørsmål til Erik sin kommentar under.

Først vil jeg nevne no at vi har akkurat en case hvor et uttrekk Arkivuttrekk.tar er levert inn, testet med Arkade 5 og pakket som DIAS tar med Arkade 5, bare for å oppdage at UUID ikke er en uuid i metadata i uttrekket, men UUID = Arkivuttrekk. Dette fordi Arkade 5 v2.9.1 leste inn Arkivuttrekk.tar som ikke var i DIAS-format, men bare et Noark 5-uttrekk i undermapper. Arkade 5 fant Noark 5-uttrekket der nede, testet uttrekket til 100% gyldig, og pakket det inn med metadata. Men da feilet, det er ikke en DIAS tar hvis det ikke er en unuk UUID for denne SIP-pakken som skal bevares for evigheten i et depotforvaltningssystem.

  1. Nøyaktig hva validerer Arkade 5 av DIAS inne i en tar, når du sier mappe/filstruktur?

  2. Alle elementer er, eksempel SIP som laget av Arkade 5 (AIP kan ha med mer under administrative_metadata tester m.m.) DIAS rotmappe: dias-mets.xml, dias-mets.xsd, log.xml DIAS rotmappe hovedmapper content, administrative_metadata, descriptive_metadata administrative_metadata\ addml.xsd, arkivuttrekk.xml, dias-premis.xml, dias-preis.xsd (for et noark 5-uttrekk eksempel) descriptive_metadata\ ingen obligatoriske elementer, depot kan legge til innhold etter ønske/behov content\ Noark 5-uttrekk med xml og xsd's og dokumenter\ fagsystem og siard etter behov/ønske

  3. Ja, hvordan kan vi stole på et arkiv bevart i f. eks. Digitalarkivet Depotforvaltningssystem som et Trusted Digital Repository, hvis DIAS-pakkene, eller hva som helst av pakkeformat lagret der IKKE er validert før bevaring? Om vi om 50 år tar ut en pakke kan et verktøy som pakket innholdet ha feilet underveis. Filer kan ha blitt korrumpert. Det MÅ valideres underveis.

solfeggietto commented 1 year ago

Presiserer at jeg snakker kun om IP-pakkeformatet som DIAS SIP og DIAS AIP er. Hvis det er snakk om å validerere innholdet av pakken, f. eks. Noark 5-validering, så er det ikke en del av selve DIAS valideringen. Man må skille pakkelaget til IP-pakkestrukturene med innholdet som er pakket inn.

joergen-vs commented 1 year ago

Notert som Arkad Jira issue 710, skal se hva av innholdet dette feiler på.

erikaaberg commented 1 year ago

Svarer på 1 her: Det sjekkes kun at påkrevde filer i henhold til DIAS finnes - og ligger på riktig sted i strukturen. Vi er litt usikre på om vi skal gå lenger/dypere/bredere her.

solfeggietto commented 1 year ago

Når en pakke Arkivuttrekk.tar kun har en hovedmappe, med en undermappe som igjen inneholdert et Noark 5-uttrekk

Svarer på 1 her: Det sjekkes kun at påkrevde filer i henhold til DIAS finnes - og ligger på riktig sted i strukturen. Vi er litt usikre på om vi skal gå lenger/dypere/bredere her.

erikaaberg commented 1 year ago

Fra: http://docs.arkade.arkivverket.no/no/latest/Brukerveiledning.html#verktoy-menuitem-tools

• DIAS Validering av en valgt SIP eller AIP som tar-fil eller katalog. Validatoren kontrollerer om informasjonspakken har en fil- og katalogstruktur som er iht. spesifikasjonen for DIAS. (Filinnhold blir ikke kontrollert.) Enkelte spesielle avvik fra standarden blir akseptert av Arkivverket. Det framgår av valideringsresultatet om pakkens struktur er gyldig (uten mangler), ugyldig (mangelfull) eller akseptabel (har aksepterte mangler).