arkivverket / noark5-standard

Noark 5 versjon 5.0 – innspill før versjonering til Noark 5 versjon 5.1
Other
3 stars 5 forks source link

Bedre forklaring om hvordan informasjon om konverteringer skal logges og avleveres #50

Open petterreinholdtsen opened 4 years ago

petterreinholdtsen commented 4 years ago

Dagens beskrivelse om logging av konvertering er uklar, og XSD åpner for flere mulige måter å registrer informasjon om konvertering på. Det bør beskrives i mer detalj i del 2.7.1 (Konvertering til arkivformat). Det eneste som står der i dag er at "Systemet skal logge alle konverteringer, og informasjon om dette skal tas med ved deponering/avlevering. Problemstillingen ble beskrevet og ganske godt forklart i https://github.com/arkivverket/schemas/issues/17 . Jeg foreslår at deler av teksten derfra omarbeides og tas inn i del 2.7.1. Det kan i denne sammenheng være nyttig å se på endringsforslag https://github.com/arkivverket/noark5-standard/pull/21 om å ta vare på sjekksum ved konvertering.

oivkru commented 3 years ago

Ser at dette kanskje bør forklares, ja. Jeg tenker følgende scenario er det riktige:

Det opprettes et nytt dokumentobjekt når en dokumentfil konverteres. Metadata for konvertering grupperes inn i det nye dokumentobjektet - metadata om konvertering skal avleveres, og må derfor følge det dokumentobjektet som skal avleveres. Det første dokumentobjektet er i produksjonsformat, skal ikke avleveres, og har derfor ikke metadata for konvertering.

Dersom dokumentet konverteres på ny, opprettes det nytt dokumentobjekt, som får ny forekomst av metadata for konvertering. Et dokumentobjekt har kun 1 forekomst av M701 format, og i metadatakatalogen fremgår det at dette ikke kan endres.

Det blir da også riktig at det skal være "1 forekomst av konvertering grupperes inn i 1 forekomst av dokumentobjekt".

I kapittel 2.7.2er det krav til sletting av versjoner, varianter og formater, og krav 2.7.22 sier at arkivert dokument i produksjonsformat skal kunne slettes dersom dokumentet er blitt konvertert til arkivformat - dokumentet i arkivformat skal ikke kunne slettes. Det er uklart om det betyr at ingen dokument i arkivformat skal kunne slettes, eller om det betyr at bare det "siste" dokumentet i arkivformat ikke skal kunne slettes. Her er det også uklart. (Metadata for sletting grupperes inn i dokumentbeskrivelse, siden sletting innebærer at både fila og dokumentobjekt blir slettet.)

petterreinholdtsen commented 3 years ago

[Øivind Kruse]

Ser at dette kanskje bør forklares, ja. Jeg tenker følgende scenario er det riktige:

Det opprettes et nytt dokumentobjekt når en dokumentfil konverteres. Metadata for konvertering grupperes inn i det nye dokumentobjektet - metadata om konvertering skal avleveres, og må derfor følge det dokumentobjektet som skal avleveres. Det første dokumentobjektet er i produksjonsformat, skal ikke avleveres, og har derfor ikke metadata for konvertering.

Det løser enkle konverteringer, men ikke konverteringskjeder. Jeg tenker slike kjeder også bør kunne dokumenteres. Et tenkt eksempel er en databasefil (prodformat) konverteres til regneark, så til PDF. Et annet er en CSV-fil konverteres til regneark og så til PDF. Et tredje er 3D-modell konverteres til STL og så til PDF.

I slike tilfeller tenker jeg at det gir mest mening at innholdet i listen over konverteringer kopires over fra dokumentobjekt-instansen for kildefilen og over til dokumentobjekt-instansen for målfilen. Se <URL: https://github.com/arkivverket/noark5-standard/pull/21 > for et XML-eksempel på hvordan dette kan se ut.

Det blir da også riktig at det skal være "1 forekomst av konvertering grupperes inn i 1 forekomst av dokumentobjekt".

For kjeder må en så Tillate 0-M forekomster av konvertering i 1 forekomst av dokumentobjekt.

Se forøvrig endringsforslag #21 for interessante ideer om å bake konvertering inn i dokumentobjekt i stedet for å legge inn sjekksum for kilde- og målfil i konvertering-instanser.

-- Happy hacking Petter Reinholdtsen

oivkru commented 3 years ago

Har sett litt på denne igjen. Er usikker på om den muligens også er diskutert i andre issues (utover den det er lenket til i opprinnelig post her, på arkivverket/schemas), men:

Det er altså 0-M forekomster av konvertering grupperes inn i 1 forekomst av dokumentobjekt. Det skal alltid opprettes et nytt dokumentobjekt ved konvertering, ref. at dokumentobjekt brukes til å skille mellom samme dokument i ulike format. Autoriserte brukere skal kunne slette et arkivert dokument i produksjonsformat dersom dokumentet er blitt konvertert til arkivformat, jf. krav 2.7.22, men dokumentet i arkivformat skal ikke kunne slettes. (Ref. også diskusjonen i #98, men går ikke inn på den her.) Det er altså dokumentet i arkivformat som skal tas vare på, derfor skal konvertering grupperes inn i det dokumentobjektet som det konverteres til.

I avleveringskapittelet står det følgende om konvertering og avlevering: Dersom arkivdokumentet har vært konvertert fra et format til et annet, skal dokumentobjektet inneholde metadata om konverteringen. Dette vil først og fremst dreie seg om konverteringer fra produksjonsformat til arkivformat. Men også konvertering fra ett arkivformat til et annet skal logges. Er dokumentet konvertert flere ganger, skal alle konverteringer dokumenteres. Dersom dokumentet har oppstått i det samme arkivformatet som det ble avlevert i, skal dokumentobjektet naturlig nok ikke inneholde noen metadata om konvertering.

Jeg tenker dette kan tolkes på to ulike måter, og det er mulig begge tolkninger skal kunne være gyldige:

  1. Alle konverteringer tas vare på og avleveres som separate dokumentobjekt, hvor hvert enkelt dokumentobjekt har informasjon om konvertering til. Da blir noen av metadata i konvertering overflødige, siden M615 konvertertDato = M600 opprettetDato, M616 konvertertAv = M601 opprettetAv, M712 konvertertTilFormat = M701 format, M719 konvertertTilSjekksum = M705 sjekksum, M720 konvertertTilSjekksumAlgoritme = M706 sjekksumAlgoritme. Dette er vel noe av diskusjonen som @hanber tar opp i https://github.com/arkivverket/schemas/issues/17 I dette scenariet ser jeg ikke helt at det skal være 0-M forekomster av konvertering i dokumentobjekt, og at det er riktigere om det er 0-1. (Ref.: "Dersom dokumentet har oppstått i det samme arkivformatet som det ble avlevert i, skal dokumentobjektet naturlig nok ikke inneholde noen metadata om konvertering.")

  2. Det er kun siste dokumentobjekt som tas vare på, slik at tidligere formatversjoner slettes fortløpende etterhvert som dokumentet er konvertert til nytt format. (Som sagt, dette kan diskuteres, jf. blant annet #98 her også). I så fall må alle forekomster av konvertering knyttes til den til enhver tid siste formatversjonen av dokumentobjekt, slik at "alle konverteringene dokumenteres," jf også krav 6.4.42. Da gir det mening at konvertering inneholder metadataelementene nevnt over, og at det er forekomst 0-M. En risikovurdering bør ligge til grunn for at man aksepterer dette som tilstrekkelig dokumentasjon av en konverteringskjede.