arkivverket / schemas

XML schemas
http://arkivverket.no
1 stars 9 forks source link

Har M701, M712 og M713 samme vokabular? #14

Open petterreinholdtsen opened 5 years ago

petterreinholdtsen commented 5 years ago

Er vokabularet for M712 (dokumentobjekt.konvertering.konvertertFraFormat) og M713 (dokumentobjekt.konvertering.konvertertTilFormat) det samme som M701 (dokumentobjekt.format), dvs. PRONOM-koder? Det virker naturlig å anta at et dokument med format A konvertert til format B skal bruke formatkodene A og B i tilhørende konvertering-oppføring, men det står ikke klart noe sted jeg har klart å finne at M701, M712 og M713 har samme vokabular.

Et annet og relatert spørsmål, er hvilket av dokumentobjekt-oppføringene som skal ha konvertering-instans tilknyttet seg. Hvis en konverterer dokument X til dokument Y, skal det da opprettes X.konvertering, Y.konvertering eller begge deler? Hvordan kan en referere mellom dokumentene i en slik konvertering, slik at det blir åpenbart hva som var kildedokumentet og resultatdokumentet i en konvertering? Savner en attributt "kildefil" (for Y.konvertering skal opprettes) eller attributt "resultatfil" (for X.konvertering) som kunne lenke mellom de to filene involvert i en konvertering.

hanber commented 4 years ago

Jeg mener det bør være samme vokabular, dvs. Pronom-koder, med mindre det finnes (eldre) formater som ikke har Pronom-kode.

Til spørsmål 2, se eget issue om konvertering. Anbefalingen der er at Y.konvertering opprettes, slik at konvertering alltid knyttes til resultat-dokumentobjektet. Vi har ingen attributter som refererer til kilde-dokumentobjektet.

Gitt at konvertering knyttes til resultat-dokumentobjektet hadde det antakelig vært nyttig med et attributt referanseKildefil i konvertering. Dette kunne være tomt dersom man konverterer "in-place".

petterreinholdtsen commented 4 years ago

Veldig bra å høre at de skal ha samme vokabular. Hva mener du med "med mindre det finnes (eldre) formater som ikke har Pronom-kode"? Hvilket vokabular skal i så fall brukes?

I hvilken spesifikasjon bør det skrives inn at de har samme vokabular? Er det metadatakatalogen som er mest egnet, eller bør det inn et annet sted? Hvordan kan vi få inn en slik klargjøring på egnet sted?

Resten av problemstillingen er antagelig best å diskutere i #17.

hanber commented 4 years ago

Jeg tenkte at vi trenger en sikkerhetsventil i fritekst for ukjente formater. Det kan være formater som er gått ut av bruk, som f.eks. Notis-WP, men det er kanskje mer aktuelt dersom det er egne filformater benyttet i spesielle applikasjoner, som kan konverteres til kjente formater.

Det er mest naturlig å angi vokabularet i metadatakatalogen, hvor det allerede finnes noen vokabularer for enkelte metadata.

petterreinholdtsen commented 4 years ago

[Hans Fredrik Berg]

Jeg tenkte at vi trenger en sikkerhetsventil i fritekst for ukjente formater. Det kan være formater som er gått ut av bruk, som f.eks. Notis-WP, men det er kanskje mer aktuelt dersom det er egne filformater benyttet i spesielle applikasjoner, som kan konverteres til kjente formater.

Nettopp, da forstår jeg.

En slik sikkerhetsventil er beskrevet i Tjenestegrensesnittets kapittel 7 sin beskrivelse av Format[1] der det nå står følgende:

Kodeverdier for formater hentes fra PRONOM-registeret over formater fra det britiske nasjonalarkivet. Informasjon om PRONOM er tilgjengelig fra deres nettsider, https://www.nationalarchives.gov.uk/PRONOM/. Slike formatkoder består at et prefiks "fmt" eller "x-fmt", en skråstrek og et heltall, for eksempel "fmt/111" (ren tekst) og "x-fmt/18" (CSV).

Ved bruk av formater som ikke har fått PRONOM-kode, bør det brukes en midlertidig formatkode. Det er definert to slike midlertidige formatkoder. Offisielle midlertidige formatkoder registrert i regi av Arkivverket har prefiks "av/", mens midlertidige formatkoder fastsatt av arkivleverandør eller arkivansvarlig gis prefiks "vnd/". For mer informasjon om formatkoder og autorativ liste over, både offentlige og midlertidige, se vedlegg 4.

Før en tar i bruk en lokalt definert kode (med prefix "vnd/"), så bør en sjekke om formatet allerede er registrert i formatkatalogen, og bruke formatkode derfra hvis mulig. Når et format med midlertidig formatkode får en offisiell formatkode fra PRONOM, så skal kodeliste og oppføringer i databasen til API-implementasjonen oppdateres ved første praktiske anledning, maksimalt et år etter at slik kode er tildelt av PRONOM, dog aldri senere enn i forkant av eventuell deponering og avlevering av arkivmaterialet der slike koder blir brukt.

Det er dermed to muligheter for slike formater som ikke finnes i offisiell PRONOM-katalog, enten at Arkivverket tildeler en "av"-kode, eller at etat/leverandør tildeler en "vnd"-kode. Det virker naturlig å bruke det samme over alt.

[1] <URL: https://github.com/arkivverket/noark5-tjenestegrensesnitt-standard/blob/HEAD/kapitler/07-tjenester_og_informasjonsmodell.md#format >

[Hans Fredrik Berg]

Det er mest naturlig å angi vokabularet i metadatakatalogen, hvor det allerede finnes noen vokabularer for enkelte metadata.

Utmerket.

-- Vennlig hilsen Petter Reinholdtsen

petterreinholdtsen commented 4 years ago

Er det nå lagt inn i metadatakatalogen hvilket vokabular som skal brukes for M701, M712 og M713? Forsøkte finne ut hvilket vokabular https://github.com/arkivverket/arkade5 sjekker mot, men klarte i farten ikke finne hvor i koden slik sjekk blir gjort. Noen som vet?

petterreinholdtsen commented 4 years ago

Vil neste versjon av Noark gjøre det klart at det er PRONOM-koder som gjelder for å beskrive format?

sturtzel commented 4 years ago

PRONOM-koder er noe som kun finnes i arkivverdenen. Dette er koder vi ikke kan forvente at diverse forsystemer kjenner til / vil sette. Det betyr at arkivet nå må ha kjennskap til et stort antall filformater.

Det bør da tilbys (om det ikke allerede finnes) en tjeneste som kan analysere filinnhold for å finne riktig kode. Alternativt bør dette settes av arkivdepotet etter mottak.

For annen bruk er filtype (filending) og mimetype det som trengs for å kunne vise / håndtere dokumentene.

petterreinholdtsen commented 4 years ago

Det finnes en slik tjeneste tilgjengelig fra PRONOM-prosjektet, http://www.nationalarchives.gov.uk/PRONOM/ har lenke til DROID-signatur, og https://digital-preservation.github.io/droid/ har en Java-implementasjon som bruker disse signaturene.

sturtzel commented 4 years ago

Jeg har vært inne på National Archives. Jeg har ikke sjekket programmet, men ser at dette er beregnet på batchkjøring. Det burde vært en skytjeneste hadde det ikke vært for at det ville vært et gedigent sikkerhetshull der noen kunne tappe alle offentlige dokumenter. Jeg er fortsatt skeptisk da jeg ikke ser behovet for andre enn depotet. Fagsystemene hyler allerede over å måtte forholde seg til en arkivmodell.

petterreinholdtsen commented 4 years ago

Enig i at skytjeneste vil være et gedigent sikkerhetshull.

Kan du forklare hvorfor du nevner fagsystem her? Formatkoden kan og bør antagelig settes av arkivet. PRONOM inneholder allerede mange formater og signaturer for å gjenkjenne dem. En grei løsning vil jo være at arkivet bruker disse signaturene etter at filen er lastet opp til å sette format-verdien.

sturtzel commented 4 years ago

Hvis dette skal settes av arkivet i etterkant kan det ikke valideres om formatet er akseptabelt som ledd i en innsjekk. Dette gjelder spesielt for en batchtjeneste. Hvis ingen andre enn arkivet har behov for informasjonen i tillegg er det noe som kan settes av depotet i stedet for dagligarkivet. Hvilke brukere av arkivet har behov for informasjonen i dette formatet / med denne detaljeringsgraden?

petterreinholdtsen commented 4 years ago

[Ragnar Sturtzel]

Dette gjelder spesielt for en batchtjeneste.

Jeg mistenker du misforstår hva DROID og PRONOM mener med batchtjeneste, i og med at du nevner batchtjenste i denne sammenhengen. I dette konkrete tilfellet betyr det nok at verktøyene kan kjøres fra kommandolinjen og håndtere flere filer i en kjøring, og ikke trenger et grafisk grensesnitt med brukerinteraksjon. Og det er i grunnen naturlig for å lese en fil, gjenkjenne dens signatur og rapportere hvilket format den har. Det gjør dermed at en kan identifisere en opplastet fil på brøkdel av et sekund etter opplasting, og kan sende informasjon om dette tilbake til brukeren når filen er lastet opp.

Hvilke brukere av arkivet har behov for informasjonen i dette formatet / med denne detaljeringsgraden?

Det viktigste bruksområdet er nok å kunne verifisere at omforming til arkivformat har gått bra. Da trenger en å skille mellom for eksempel ulike varianter av PDF og PDF/A.

-- Vennlig hilsen Petter Reinholdtsen

sturtzel commented 4 years ago

Selv om headeren sider PDF/A er det ikke gitt at filen er konform vs. standarden. Og PDF/A er en hel familie med varianter der f.eks. signerte dokumenter kan være i -3 gitt at alt annet enn signaturen er i -1 eller -2. Jeg ser fortsatt ikke behovet for PRONOM fra brukere av arkivet.

Definisjonen på PDF/A er at bl.a. disse taggene er funnet?

1 B