arkivverket / noark5-standard

Noark 5 versjon 5.0 – innspill før versjonering til Noark 5 versjon 5.1
Other
3 stars 5 forks source link

Bør <personnavn></personnavn> fra krav 5.2.34 inn i XSD? #29

Open petterreinholdtsen opened 4 years ago

petterreinholdtsen commented 4 years ago

Valgfritt krav 5.2.34 lyder som følger:

Personnavn bør merkes med XML-taggene <personnavn> </personnavn> før de eksporteres.

Spesielt for offentlig postjournal er dette en god ide, for å la mottaker velge hvordan personnavn skal håndteres. Men dagens XML-skjema nevner ikke denne XML-taggen med et ord. Bør datatypen xs:string byttes ut med en datatype som tillater <personnavn/>?

hanber commented 4 years ago

Den burde kanskje det. I så fall må vi, for å være konsistente, benytte denne datatypen for alle tekst-elementer hvor personnavn kan forekomme. Hvordan gjøres det i så fall? Som et regulært uttrykk? Det vil jo uansett bare bli en del av en tekst-verdi, ikke et eget element i xsd-en? Jeg forutsetter at dette ikke vil påvirke de løsningene som i dag benyttes for å merke personnavn, og synes dette bør havne langt ned på prioriteringslista.

oivkru commented 3 years ago

Kravet gjelder eksport til løsning for publisering av offentlig journal på Internett. Det er ikke gitt at taggen skal være i en deponering/avlevering?

hanber commented 3 years ago

På den annen side kan det være greit å vite hva som er personnavn også når vi skal tilgjengeliggjøre fra depot.

petterreinholdtsen commented 3 years ago

[Hans Fredrik Berg]

På den annen side kan det være greit å vite hva som er personnavn også når vi skal tilgjengeliggjøre fra depot.

Nettopp. Utfordringene til einnsyn rundt navn er jo universelle og gjelder enhver som trenger å gi innsyn, og det vil dermed gjøre livet til depot enklere hvis vi finner en måte å gjøre dette vanlig.

På den andre side viser jo norske-postlister.no at en kan komme ganske langt med automatisk tekstgjenkjenning basert på kjente navn, så kanskje er det enklere enn å tro at arkivleverandører og arkivarer vil klare å markere ut navn med større presisjon?

-- Vennlig hilsen Petter Reinholdtsen

AnnKnu commented 3 years ago

Ref møte 09.11.2020. Denne taes ikke inn i 5.5.1

petterreinholdtsen commented 3 years ago

Hvorfor ble saken lukket hvis den ikke er løst, og ikke vil bli løst i 5.5.1?

AnnKnu commented 3 years ago

Vi ser ikke at det er behov for å ta denne inn i 5.5.1.

@joergen-vs, hvor stor nytte tror du dette endringsønske har?

petterreinholdtsen commented 3 years ago

Hvis XSD ikke nevne skal <personnavn>, betyr det at krav 5.2.34 skal tas ut? Det virker jo problematisk hvis det finnes noark 5-krav som ikke er reflektert i XSD.

petterreinholdtsen commented 3 years ago

Her er et eksempel på hvordan XML-validering feiler ved bruk av <personnavn> i en tittel og offisiell XSD:

% xmllint --valid --noout --schema arkivstruktur.xsd  arkivstruktur-orig.xml
arkivstruktur-orig.xml:2: validity error : Validation failed: no DTD found !
on="http://www.arkivverket.no/standarder/noark5/arkivstruktur arkivstruktur.xsd"
                                                                               ^
arkivstruktur-orig.xml validates
% diff -ur  arkivstruktur-orig.xml arkivstruktur.xml 
--- arkivstruktur-orig.xml      2020-11-09 17:33:28.521962315 +0100
+++ arkivstruktur.xml   2020-11-09 17:30:57.590164105 +0100
@@ -28,7 +28,7 @@
     <mappe xsi:type="saksmappe">
       <systemID>734b493f-c64e-4fc5-a988-56be11e2ee10</systemID>
       <mappeID>2011/230</mappeID>
-      <tittel>Byggesaker</tittel>
+      <tittel>Byggesaker for <personnavn>Henrik Ibsen</personnavn></tittel>
       <beskrivelse>Byggesaker</beskrivelse>
       <opprettetDato>2011-09-09T14:00:00</opprettetDato>
       <opprettetAv>Arkivleder</opprettetAv>
% xmllint --valid --noout --schema arkivstruktur.xsd  arkivstruktur.xml
arkivstruktur.xml:2: validity error : Validation failed: no DTD found !
on="http://www.arkivverket.no/standarder/noark5/arkivstruktur arkivstruktur.xsd"
                                                                               ^
arkivstruktur.xml:31: element tittel: Schemas validity error : Element '{http://www.arkivverket.no/standarder/noark5/arkivstruktur}tittel': Element content is not allowed, because the type definition is simple.
arkivstruktur.xml fails to validate
%

De operative bitene her er "arkivstruktur-orig.xml validates" for fil uten <personnavn>, og "arkivstruktur.xml fails to validate" for fil med <personnavn>. Uten endring av offisiell XSD vil altså enhver XML som forsøker følge krav 5.2.34 være i strid med DTD beskrevet av offisiell XSD og automatisert validering vil si at XML-filen ikke er velformet.

petterreinholdtsen commented 3 years ago

Forresten, noen som vet om einnsyn har en XSD for å validere XML-en de tar i mot, og om den aksepterer <personnavn>?

tsodring commented 3 years ago

Vet ikke hva einnsyn bruker, men dokumentet "For innholdsleverandørene til OEP (Offentlig elektronisk postjournal)" er interessant lesing her

tsodring commented 3 years ago

Denne beskrivelsen av "§§ 6 og 9 - Offentlig elektronisk postjournal - personnavn og arkivkoder/emner" er også interessant

joergen-vs commented 3 years ago

På grunn av måten man arver fra ulike navnerom, blir en løsning slik:

  <tittel><n5mdk:personnavn>Alice</n5mdk:personnavn> 1863-1864</tittel>

  <xs:complexType name="tittel" mixed="true">
    <xs:annotation>
      <xs:documentation>M020</xs:documentation>
    </xs:annotation>
    <xs:sequence>
      <xs:element name="personnavn" type="xs:string" minOccurs="0" maxOccurs="unbounded"/>
    </xs:sequence>
  </xs:complexType>

Er det ønskelig?

petterreinholdtsen commented 3 years ago

[Jørgen]

Er det ønskelig?

Aner ikke om det er ønskelig, men det er ikke i tråd med krav 5.2.34, som sier bør brukes.

Det er uklart for meg hvem som ikke ser behov for å få fikset dette i versjon 5.5.2 og hva som gjør at en ikke ser dette behovet, jamfør kommentar i https://github.com/arkivverket/noark5-standard/issues/29#issuecomment-723868559, hvilket gjør det umulig å vite hva som er ønskelig her.

Mitt utgangspunkt er at å følge bør-kravet 5.2.34 sammen med bruk av offisiell XSD (og antagelig også Arkade5, men har ikke testet) vil føre til at uttrekk vil bli avvist som ugyldige. Jeg antar det sikrer at krav 5.2.34 aldri vil bli fulgt av noe system som ønsker godkjenning av sitt uttrekk. Hvis de som lager uttrekk skal kunne følge dette bør-kravet og lage gyldig XML, så må XSD akseptere uttrekk med

. -- Vennlig hilsen Petter Reinholdtsen
joergen-vs commented 3 years ago

Leste mer på avsnittene før kravet, og kravet er knyttet til offentlig journal som skal publiseres eller gis ut på direkte forsepørsel. Her snakker man uansett om en tilgjengeliggjørings-versjon, ikke samme som bevares. "Offentlige organ plikter å føre journal, og de plikter å legge frem en versjon av journalen på forespørsel, hvor opplysninger som skal eller kan unntas fra offentlighet ikke framgår."

Det burde kanskje være en egen versjon av offentlig journal for publisering?

petterreinholdtsen commented 3 years ago

Kravet har nok den bakgrunnen, men som @hanber kommenterte tidligere, så skal det jo gis innsyn i bevaringsmateriale på samme måte som tilgjengeliggjøringsmateriale, slik at det er lurt å ikke kaste oppmerking av navn brukt i offentlig journal når informasjonen skal bevares.

tsodring commented 3 years ago

Jeg tror problemet her er er at det finnes et krav som det er en del usikkerhet rundt. Spesielt i forhold til hvorvidt implementasjonen er standardisert blant leverandører og hvordan Arkivverket ønsker det brukt.

Personlig liker jeg ikke mixed-type i denne sammenhengen da jeg synes det gjør innhold i et element til en del av strukturen i dokumentmodellen (DOM). Jeg vet at det er ikke helt riktig å si det men allikevel blir det en glidende overgang her.

<tittel>Personalmappe for <n5mdk:personnavn>Hans Hansen</n5mdk:personnavn></tittel>

men det er en personlig preferanse, ikke en faglig preferanse. Personlig synes jeg <![CDATA[]] er en enklere måte å løse det på.

<tittel><![CDATA[Personalmappe for <personnavn>Hans Hansen</personnavn>]]></tittel>

Manglende standardisering her gjør det kanskje slikt at leverandører har løst dette på forskjellige måter og derfor blir dette noe som standardiseres for uttrekk ikke danning.

I følge RFC 8259 er følgende JSON gyldig

{
   "tittel":"<personnavn>Hans Hansen</personnavn>"
}

Så det er mulig å standardisere dette både for tjenestegrensesnittet og Noark standarden.

Spørsmålet Petter reiser går egentlig dypere synes jeg. Hva hvis tittelen er:

<tittel><Personalmappe for <personnavn>Hans Hansen</personnavn>, født 050892</tittel>

Da har vi kanskje også behov for

<persondato> eller <fødselsdato>

<tittel><Personalmappe for <personnavn>Hans Hansen</personnavn>, født <fødselsdato>050892</fødselsdato></tittel>

Jeg har alltid stusset over Noark sitt evne for å identifisere innhold som skal være unntatt offentlighet. Med "roboter" eller annen automatisk prosessering så vil det i større grad være behov for å kunne automatisk sette slike tagger på innhold så det trengs en tilnærming for å løse problemstillingen.

Hvis vi ser på \ ser vi at det er mulig å skjerme metadata. \ kan angi at \ feltet kan skjermes med en beskrivelse i metadatakatalogen som gir inntrykk at det ofte må være en manuell oppgave å skjerme innhold.

Jeg tror det er et behov for å kunne gjøre dette på et innholdsnivå med feks:

<tittel>Personalmappe for <skjermet><personnavn>Hans Hansen</personnavn></skjermet>, født 050892</tittel>

Det er ikke alltid slik at personnavn skal skjermes. Feks ta en dump av Henrik Ibsens skrifter tilkoblet en arkivdel.

<tittel>Skrifter fra <personnavn>Henrik Ibsens</personnavn>, født 02031828 sin offentlig samling</tittel>

Her inngår et personnavn uten behov for skjerming.

Samtidig må en løsning i Noark standarden også fungere i tjenestegrensesnittet og der tror jeg det å merke innhold med XML fungerer ganske bra

{
   "tittel":"<![CDATA[Personalmappe for <skjermet><personnavn>Hans Hansen</personnavn></skjermet>]]"
}

Når det er sagt er det flere argumenter for og imot, men jeg tror det viktige er å standardisere noe her.

sturtzel commented 3 years ago

Tittel er bare ett av stedene hvor personnavn kan forekomme. Det mest typiske feltet er navn i part/korrespondansepart.

Å tagge inne i et felt betyr at alle systemer som håndterer denne informasjonen må forholde seg til kodingen. Det vil garantert ikke være tilfelle og man risikerer at det blir mye rart i forskjellige portaler og fagsystemer.

Taggingen bør nok tas mest mulig automatisk fra tittel etc. i portalene. Men for det rene attributtet navn burde det vært mulig å angi at dette er et personnavn og ikke et organisasjonsnavn. For et enkeltmannsforetak kan det være vanskelig å skille...

tsodring commented 3 years ago

Interessant innspill fra Ragnar. Jeg forstår utgangspunktet og er enig med at dette kan bli utfordrende men på et tidspunkt er man nødt til å foreslå en løsning til dette problemet.

Hvis gjeldende standarder ikke klarer å foreslå en måte å løse det på vil "alle" (fagsystemer og portaler) løse det på hver sin måte. Kanskje det er noe som bør løftes oppover (ala digdir) slik at problematikken kan adresseres på et høyere nivå ...

tsodring commented 3 years ago

Når jeg tenker etter er jo krav 5.2.34 valgfritt. Så Noark / tjenestegrensesnittet kunne foreslå en valgfritt tilnærming til hvordan dette skal løses. Da kan man kanskje på sikt få flere med på en eventuell tilnærming.

Vi bør kanskje skille mellom Noark som konseptuell standard og tjenestegrensesnittet som en bestemt tolkning av Noark.

hanber commented 3 years ago

Siden dette kan forekomme i mange fritekst-felt, har jeg alltid forestilt meg at taggene skrives inn med escape-tegn, slik at de blir en del av teksten, og ikke xml-tagger. Så blir det opp til applikasjonen som bruker dem å håndtere dem riktig.

sturtzel commented 3 years ago

Det vil uansett være mange steder personnavn forekommer uten tagging. Det er lite trolig at brukere vil huske på å tagge personnavn i et dokument eller en merknad. I korrespondansepart og part hentes ofte personer fra folkeregisteret og organisasjoner fra enhetsregisteret, eller i det minste kompletteres derfra. Et alternativ som var i GeoIntegrasjon 1.1 er dermed å støtte navn slik de ligger i folkeregisteret. Da hadde det blitt et fornavn- og et etternavnfelt. Det forenkler sortering og det gir automatisk indikasjon på at det er et personnavn. Utfordringen der er at mange fagsystemer ikke har to eller tre (mellomnavn) felt for navn.

All form for tagging inni et objekt vil bli vist i portaler og kan dukke opp på konvolutter og i lister. D.v.s. at man tvinger alle systemer til å ta hensyn til noe som er laget for eInnsyn. Kanskje eInnsyn skulle ha funnet ut av dette selv via AI?

hanber commented 3 years ago

Er det slik at navne-taggene blir liggende som en del av innholdet i Noark-metadataene, eller blir de lagt på i fila som overføres til eInnsyn? Hvis det er det siste, er problemet for så vidt eInnsyn sitt (og leverandørene, da), ellers er det Noark sitt problem. Jeg er redd det er det første som gjelder. I så fall er det jo korrekt at vi tvinger alle systemer til å håndtere det, og det er kanskje ikke tilsiktet. Er det bare eInnsyn som trenger dette eller gjelder kravet om at navn ikke skal være søkbare etter ett år alle innsynsløsninger? Hvis kravet gjelder alle, trenger jo alle å ta hensyn til det, og da kan det like gjerne merkes i Noark-løsningen.

Om man skulle dele opp navn i for- og etternavn i metadatakatalogen er et annet spørsmål, som man kan diskutere som et endringsønske. Vi kan fremdeles ha et metadatum som navn som bare er en konkatenering av for- og etternavn.

Ellers har jeg forstått det slik at norsk navnestandard (kanskje det betyr Folkeregisteret) betrakter alle navn før det siste som fornavn, slik at Terje Pettersen Dahl har Terje Pettersen som fornavn, mens Terje Pettersen-Dahl har Terje som fornavn. Er det korrekt?

tsodring commented 3 years ago

Kan vi basere oss på en norsk navnestandard når vi er en del EØS-avtalen? Jeg skjønner at det vi danner i Norge i Norske systemer kan forholde seg til norsk navnestandard, men når Europeiske systemer skal integreres med Norske så hadde det vært fint med en standardisert måte å håndtere navn på. Denne lenken sier litt om navn. Jeg har skjønt at det er langt mer komplisert enn så.

hanber commented 3 years ago

Det er sant. ISA 2 sin Person Core Vocabulary har både fullName, familyName, givenName, patronymicName og alternativeName. Hvis vi skulle internasjonalisere oss ville dette kunne være et utgangspunkt.

sturtzel commented 3 years ago

GI 1.1 har de tre første... Offentleglova (mener det er derfra) sier at det ikke skal være lov å søke gitt personnavn etter et år. Hvis portalen ikke gir mulighet til å søke på navn eller hvis portalen ikke viser gamle journaler, er det ikke et problem. Før OEP var det normalt at offentlig journal kun lå ute i 3 måneder (mener det var krav fra Datatilsynet). Så jeg mener at det er eInnsyn som har utfordringer, ikke Noark og at Noark derfor ikke burde forholde seg til tagging. AI gir i dag muligheter til automatikk og den blir bedre og bedre.

tsodring commented 3 years ago

Depot vil kanskje ha behov for dette så spørsmålet er om dette er en problemstilling som gjelder både for danning og bevaring. Det er vel det som er utgangspunktet her. Ragnar er flink til å beskrive realiteten av dette og hvordan dette kan få konsekvenser på fagsystem integrasjoner og viser kompleksiteten.

Allikevel synes jeg Arkivverket bør utforske dette i større grad. I en bakover perspektiv så er det umulig å løse dette for eksisterende fagsystemer, men vi kan ikke la gamle systemer definere standarden framover. Da forblir vi en uendelig løkke som Noark 5 er kritisert for, at bakoverkompatibiltet med Noark 4 ødela mye for innovasjon.

God metadata er avgjørende for en god forvaltning av dokumentasjon.

sturtzel commented 3 years ago

Jeg er helt enig i at gode metadata er viktig, men tagging inni tekster bør innføres med varsomhet. For skjerming har vi eget metadataelement for offentlig tittel, skulle vi tagget kunne det vært koder som fortalte hva skulle skjermes. Og de kunne overlappe med taggene for personnavn som igjen kunne (delvis) overlappe med tagger for andre behov som adresse for geografisk plassering. Kun fantasien setter grenser, men kompleksiteten til systemene rundt øker. Derfor varsomhet.

petterreinholdtsen commented 3 years ago

[Ragnar Sturtzel]

Offentleglova (mener det er derfra) sier at det ikke skal være lov å søke gitt personnavn etter et år.

Jeg tror du tenker på offentlegforskrifta §6 fjerde ledd, tredje punktum: «Offentleg elektronisk journal for organ som er omfatta av ordninga etter fyrste ledd, skal innrettast slik at det ikkje skal vere mogleg å få treff på personnamn i innførslar i journalane som er eldre enn eit år». I tillegg kommer GDPR-utfordringer.

<URL: https://lovdata.no/dokument/SF/forskrift/2008-10-17-1119 > og <URL: https://www.regjeringen.no/no/dokumenter/tagging-av-personnamn-for-sjolvstendig-naringsdrivande---offentlegforskrifta--6/id2537924/ > er begge nytting bakgrunnsinformasjon.

-- Vennlig hilsen Petter Reinholdtsen

sturtzel commented 3 years ago

Takk! Hadde ikke tid til å lete opp hvor regelen stod. Når det gjelder GDPR så mener jeg at den ikke gir flere utfordringer enn Offentleglova med forskrift. I så tilfelle måtte lovverket endres. Offentlig journal inkluderer personopplysninger.

Den siste om enkeltmannsforetak gjør det enda enklere for en AI-tjeneste å plukke ut personnavn. Og det gjør ikke noe om metodene plukker ut for mange.

Men igjen, dette gjelder kun søkemuligheter i offentlig journalinnføringer eldre enn ett år. Personnavn kan fortsatt vises.