arkivverket / noark5-standard

Noark 5 versjon 5.0 – innspill før versjonering til Noark 5 versjon 5.1
Other
3 stars 5 forks source link

Hva er formålet med krav 6.4.15 om filendinger? #47

Open petterreinholdtsen opened 4 years ago

petterreinholdtsen commented 4 years ago

I betinget krav 6.4.15 om avleveringspakke, så står det "Dokumentfilene endelse skal angi arkivformat: pdf, tif, txt osv." Denne beskrivelsen er forvirrende, da riktig filendelse for tiff-filer er .tiff, ikke .tif. Hva er autorativ kilde for filendinger? Det er enkelt for mange formater, men for andre er det uklart hva det betyr.

Er det mening at dokumentobjekt.format og filnavn skal henge sammen? Hvis format er PRONOM-kode, hvordan skal en velge filnavn når det er flere mulige filendinger for samme PRONOM-kode? For eksempel fmt/291 har både odt og ott som filendinger. Hvorfor nevner kravet filnavnendelser i utgangspunktet? Hva ønskes oppnådd ved å sette krav til filendinger?

En praktisk måte å håndtere filer i en avleveringspakke, som sikre automatisk deduplisering, er å navngi filene etter sjekksummen i innholdet. Krav til filnavn gjør dette vanskeligere.

Jeg foreslår å fjerne setningen fra krav 6.4.15.

monadani commented 4 years ago

Her har vi snakket om å endre RAF kap 5-17 våren 2020

Jf. mail med Stian, Erik Gunnar m. fl. onsdag 1. april 2020 11:39

Ny tekst på § 5-17… Riksarkivaren fastsetter til enhver tid hvilke filformater som er godkjente for langtidsbevaring....»..og at disse blir bekjentgjort på Arkivverket.no/…. Vi var inne på at dagens gyldige formater kan følge med som et datert vedlegg til RAF, med informasjon om at til enhver tid gjeldende formater blir bekjentgjort på Arkivverket.no/… (Samt at vi i N.5.5.1, API, annet vil lenke til Arkivverket.no/…)

monadani commented 4 years ago

AS og MD er enige at vi omformulerer denne: FRA: "Dokumentfilene endelse skal angi arkivformat: pdf, tif, txt osv." TIL: "Dokumentfiler skal være i godkjent arkivformat ihht RAF § 5-17 (m. fl. hvis RAF får nye § ifm 2020 oppdateringen).

petterreinholdtsen commented 4 years ago

[Mona Danielsen]

Ny tekst på § 5-17… Riksarkivaren fastsetter til enhver tid hvilke filformater som er godkjente for langtidsbevaring....»..og at disse blir bekjentgjort på Arkivverket.no/…. Vi var inne på at dagens gyldige formater kan følge med som et datert vedlegg til RAF, med informasjon om at til enhver tid gjeldende formater blir bekjentgjort på Arkivverket.no/… (Samt at vi i N.5.5.1, API, annet vil lenke til Arkivverket.no/…)

Blander du slutten av filnavn (aka filending) og filformat her? Mitt poeng er at de ikke er det samme, og det er lurt å bruke filformat, ikke filnavn, til å skille ulike formater, da filnavn er uegnet til formålet og filformat kan være entydig på tvers av systemer og uttrekk.

For å ta et eksempel, så er jo bilde.jpg og bilde.jpeg begge bilder med jpeg-format, men ikke har samme filending.

-- Vennlig hilsen Petter Reinholdtsen

petterreinholdtsen commented 4 years ago

[Mona Danielsen]

TIL: "Dokumentfiler skal være i godkjent arkivformat ihht RAF § 5-17 (m. fl. hvis RAF får nye § ifm 2020 oppdateringen).

Vil ikke dette gi overlapp med krav 6.4.36 til arkivdokumentene: "En avleveringspakke skal inneholde arkivdokumenter i arkivformat. Hvert dokument skal eksporteres som én dokumentfil."?

Er kanskje bedre å fjerne setningen helt fra krav 6.4.15 og nevne forskriftsparagrafer i krav 6.4.36 i stedet?

Det er i denne sammenheng verdt å huske på at det er lurt å ta vare på originalfiler, i tilfelle konvertering til arkivformat har gått galt eller har gitt datatap, for å gi fremtidige forskere og brukere av informasjonen en mulighet til å gjenskape tapt informasjon eller oppdage konverteringsfeil, og av den grunn bør det åpnes for å også avlevere filer som ikke er i arkivformat så lenge det også finnes en utgave i arkivformat. Uansett et tema for en annen mangelmelding, tenker jeg. Her var spørsmålet hvorfor Noark 5 blander seg i hvilke filnavn som brukes i en avlevering, hvilket jeg ikke forstår formålet med.

-- Vennlig hilsen Petter Reinholdtsen

sturtzel commented 4 years ago

Filnavn bør kunne velges fritt, format bør standardiseres og ikke forlanges å være lik filtype fra filnavnet (da faller behovet for feltet bort).

Format bør ikke standardiseres inni Noark, men på utsiden da nye formater bør kunne godkjennes uavhengig av revisjon av Noark. Så henvisning til "godkjent format" er greit, men kun for arkivformat. Produksjonsformat vil generelt ikke være lik et godkjent arkivformat.

oivkru commented 3 years ago

Setningen kan fjernes, den er en gjentakelse av det som står i riksarkivarens forskrift § 5-31 første ledd bokstav b):

For arkivdokumenter skal det opprettes en katalog med navnet DOKUMENT på første nivå under rotkatalogen på vedkommende lagringsenhet. Dokumentfilene skal samles på andre nivå under rotkatalogen og eventuelt struktureres i underkataloger. Dersom et enkelt arkivdokument består av flere filer, skal disse samles i én katalog med et entydig navn. Filformat for arkivdokumenter angis ved filendelse, f.eks. XML, PDF eller TIF.

Det er unødvendig å ha krav i standarden som sier det samme som bestemmelser i forskriften. (Forskriften skal på høring snart, så jeg vil oppfordre til å kommentere dette i den høringen.)

petterreinholdtsen commented 3 years ago

[Øivind Kruse]

For arkivdokumenter skal det opprettes en katalog med navnet DOKUMENT på første nivå under rotkatalogen på vedkommende lagringsenhet. Dokumentfilene skal samles på andre nivå under rotkatalogen og eventuelt struktureres i underkataloger. Dersom et enkelt arkivdokument består av flere filer, skal disse samles i én katalog med et entydig navn. Filformat for arkivdokumenter angis ved filendelse, f.eks. XML, PDF eller TIF.

Det høres jo absolutt ut som noe de som skal implementere Noark 5-standarden bør vite om, og jeg synes dermed det burde stå i spesifikasjonen for Noark 5.

Det er unødvendig å ha krav i standarden som sier det samme som bestemmelser i forskriften. (Forskriften skal på høring snart, så jeg vil oppfordre til å kommentere dette i den høringen.)

Er ikke det i dette tilfelle det samme som å si at standarden ikke skal inneholde fullstendig beskrivelse av lagringsformatet for Noark 5? Hvordan deponiformatet skal se ut på disk er jo en viktig del av Noark 5.

Sier ikke lov og forskrift at Noark 5 skal følges? Da trengs det vel ikke å stå noe om filstruktur i forskriften hvis det står klart og tydelig i Noark 5?

-- Vennlig hilsen Petter Reinholdtsen

sturtzel commented 3 years ago

Arkivformater er aktuelle også for dokumenter fra systemet som ikke følger Noark. Jeg synes det er en god ide å henvise til forskriften og la formatkravene ligge der. Formatkravene er omfattende og er beskrevet i flere paragrafer i forskriften.

oivkru commented 3 years ago

Uansett er forskriften overordnet standarden. Hvis det samme kravet står to steder, må det oppdateres to steder om det endres. Da er det en risiko for at standarden er feil om vi ikke har fulgt med. (Dette er en intern, organisatorisk utfordring hos oss, siden RAF kapittel 5 forvaltes av en annen seksjon enn den seksjonen som har ansvaret for standarden.) Så kan det alltids diskuteres hva som hører hjemme hvor, men den aktuelle bestemmelsen gjelder alle arkivuttrekk med dokumenter.

Jeg laget en pull request på dette, hvor jeg bare fjernet den aktuelle setningen nå (håper jeg har gjort det riktig, og ikke rotet det til), selv om resten av avsnittet i kravet også er fra forskriften. Det tenker jeg blir en del av en større opprydningsjobb.