arkivverket / noark5-standard

Noark 5 versjon 5.0 – innspill før versjonering til Noark 5 versjon 5.1
Other
3 stars 5 forks source link

Gjør det klart at originalfil kan deponeres og avleveres sammen med arkivformat #99

Open petterreinholdtsen opened 3 years ago

petterreinholdtsen commented 3 years ago

Gjør det klart at originalfil kan deponeres og avleveres sammen med arkivformat

For å redusere sjansen for datatap ved konvertering bør en ta vare på originalfil sammen med arkivformat. Det er valgfritt å ta med originalfil/ produksjonsformat, og det må avtales med uttrekksmottaker om slike formater skal være med i uttrekket.

Gjør det klart at dokumentobjekts versjonsnummer gjelder for alle filer lastet inn i arkivet, ikke bare filer i arkivformat, for å sikre at versjoner av originalfiler også får versjonsnummer.

Fixes #98

tsodring commented 3 years ago

Jeg vet om en IKA som praktiserer dette i dag. De tar imot produksjonsformat og bevarer det sammen med uttrekket. Men kanskje det bør komme fram at slik filer er lagret ikke bevart. Det er ingen forpliktelse til å gjøre produksjonsvarianten lesbar i framtiden. Bevaringsforpliktelsen ligger på arkivformat. Dersom det ikke er mulig å lese doc filen så er det pdf'n som gjelder.

tsodring commented 3 years ago

Spesielt i Noark som har så god kontroll på det å skille produksjonsformat fra arkivformat som to dokumentobjekt tilkoblet til en dokumentbeskrivelse burde dette ikke være problematisk. Jeg har sett (ikke Noark) uttrekk der kun produksjonsformat dokumenter er med og skjønner at det gjør det vanskelig å sikre bevaringen.

mortenee commented 3 years ago

Hos Bergen byarkiv praktiserer vi bevaring av originalfiler for kun de filformatene vi vet det er god sjanse for at konverteringen (med dagens programvare) ikke er god nok. Dette er automatisert som del av en automatisk normaliseringsprosess i egenutviklet verktøy for å gjøre uttrekk. Finnes her: https://github.com/Preservation-Workbench Når bedre konverteringsløsninger for de mest trøblete formatene blir tilgjengelig kan vi da rekonvertere disse fra originalfiler. Tanken er at dette skal kunne gjøres direkte i digitalt depot og vi eksperimenterer derfor med å bruke Subversion som DSM-system heller enn Essarch.

petterreinholdtsen commented 3 years ago

[mortenee]

Hos Bergen byarkiv praktiserer vi bevaring av originalfiler for kun de filformatene vi vet det er god sjanse for at konverteringen (med dagens programvare) ikke er god nok.

Det var en interessant tilnærming. Kan du fortelle mer om hvordan dere klassifiserer formater i disse to kategoriene, og hvorfor dere ikke tar vare på alle orignalene?

Er listen over formater der dere vet det er god sjanse for at konverteringen (med dagens programvare) ikke er god nok tilgjengelig fra github-depotet? Et raskt søk avslørte intet, men jeg vet ikke helt hva jeg ser etter.

-- Vennlig hilsen Petter Reinholdtsen

mortenee commented 3 years ago

Er et kost/nytte kompromiss basert på vår erfaring med uttrekk og filkonvertering de siste årene. Som et eksempel hadde vi et uttrekk nylig på 4TB med filer. Blir en reell økt kostnad for vår enhet å lagre 8TB heller enn 4+litt til den blodprisen vi blir internfakturert av intern-it. I tillegg skal en ha flere kopier på forskjellige medier for å sikre mot bitrot mm.

Listen over formater er her: https://github.com/Preservation-Workbench/PWCode/blob/master/bin/common/convert.py I 'mime_to_norm' øverst er ene argumentet 'keep_original'. Skal flytte dette til en config-fil senere men dette er POC-kode så langt av en som fortsatt er ganske fersk på python. Vil bedres sakte men sikkert framover. Men er allerede godt nok til at vi har brukt det på alle uttrekk siste året. Gjør hele prosessen ved datauttrekk automatisk - ikke bare konvertering av filer. Har ikke støtte for Noark-uttrekk ennå men kan legges til hvis vi trenger det. Håper foreløpig at det åpnes for Noark-uttrekk som en ren DIP heller enn at det er formatet for SIP'en. Bedre forklaring av programvaren finnes i en rapport vi skrev nettopp. Kan sende den pr mail hvis ønskelig. Den beskriver også URD i detalj (brukes for å lage DIP): https://github.com/fkirkholt/urd

petterreinholdtsen commented 3 years ago

Jeg har oppdatert forslaget til endring og gjort det klart at det må avtales med mottaker om uttrekk skal ha med originalformater, samt tatt med justering av versjonsnummer for å sikre at også originalfiler kan ha versjonsnummer.