arkivverket / standardlab

Standardisering for dokumentasjonsforvaltning og arkiv i kjølvannet etter Noark
13 stars 2 forks source link

Ontologier og kunnskapsgrafer #76

Closed lvbachmann closed 1 year ago

lvbachmann commented 1 year ago

Spørsmål

StandardLab har fått tips om at ontologier og kunnskapsgrafer er områder vi har nærmet oss, og dermed kan være relevant for arbeidet vi gjør med informasjonsmodeller. Er det noen som har innspill til hvordan dette (eventuelt) bør bakes inn i arbeidet som foregår?

Hvem ønsker du svar fra?

Andre

lvbachmann commented 1 year ago

Hei, @veleda! Det var ditt spørsmål som gjorde oss oppmerksomme på dette. Har du kanskje noen innspill her?

veleda commented 1 year ago

@lvbachmann Ja, her har jeg mange innspill! Tar gjerne en teams-call med dere, eller kommer på lunsjprat en dag, for å fortelle mer. Send meg gjerne epost på veronika [dot] heimsbakk [at] capgemini [dot] com.

psilip commented 1 year ago

Hei! Jeg vil skyte inn her at DCAT-AP-NO, CPSV-AP-NO og de (fleste) andre som ligger til grunn for rammeverket for informasjonsforvaltning er rdf-baserte strukturer som er eminent spisbare for en grafbase.

Nå har det rent en del vann under broa siden 2014, men da hadde Arkivverket ambisjoner om å teste ut løpende avlevering basert på "rdf-tripler som overføringsformat" (side 17–19). Jeg vet ikke hvordan det gikk med det prosjektet, men det ser ut til å være tuftet på det arbeidet Hafslund gjorde hos seg med å skrive om Noark 5 til rdf og koble det med en ontologi for hele virksomheten.

Dette er en retning vi i Tolletaten er svært interessert i å utforske nærmere, da en "rdf-isert" avart av Noark (eller en etterfølger) ville ta oss nærmere å lukke det gapet ifm. behov på metadatasiden vi identifiserte i sandkasseprosjektet, og la dokumentasjonen vår også leve i en graf som kan kobles sammen med andre typer datasettbeskrivelser.

veleda commented 1 year ago

Fantastisk, @psilip!

Jeg var selv med å oversette Noark 4 og Noark 5 til RDF, med tilhørende SHACL skjema, under implementasjonen av eInnsyn tilbake i 2015/2016. eInnsyn har mottak for Noark 5 og JSON-LD, hvor JSON-LD er en syntaks som kan benyttes for RDF, så vidt meg bekjent.

Veldig spennende greier, definitivt verdt å dykke inn i! Venter spent på e-post fra deg, @lvbachmann .

ajaunsen commented 1 year ago

Interessant tema! Ontologier, semantisk interoperabilitet, datamodellering og kunnskapsgrafer er temaer jeg og flere av mine kollega jobber med. Målet er ofte data integrasjon, data integritet & kvalitet og avansert data analyse (inkl. f.eks inference og innsikt). Tidligere har jeg jobbet mye i akademisk sektor hvor åpene data og FAIR prinsippene ofte er et grunnlag for å jobbe med informasjonsmodeller og metadataskjema. Denne ferske artikkelen eksemplifiserer bruken av konseptuell datamodellering for å oppnå semantisk interoperabilitet på tvers av fagområder (og her i kontekst av FAIR prinsippene): https://www.researchgate.net/publication/369850668_Ontological_representation_of_FAIR_principles_A_blueprint_for_FAIRer_data_sources

Denne artikkelen belyser dessuten litt av det jeg peker på: https://www.ontotext.com/blog/reasoning-with-big-knowledge-graphs/

Hvordan dere konkret kan anvende kunnskapsgrafer og ontologier i arbeidet deres kan eventuelt diskuteres nærmere i et møte (det krever en langt bedre forståelse av målene deres). Ta kontakt på Andreas [dot] Jaunsen [at] bouvet [dot] no

stianbouvet commented 1 year ago

Hei - spennende at dere bringer temaet på bane her, @lvbachmann!

Viser til @psilip, som blant annet skriver:

Jeg vet ikke hvordan det gikk med det prosjektet, men det ser ut til å være tuftet på det arbeidet Hafslund gjorde hos seg med å skrive om Noark 5 til rdf og koble det med en ontologi for hele virksomheten.

For noen kan det kanskje være interessant å følge noen av trådene @psilip nevner videre. Vi er nok egentlig ganske mange som har vært innom det nevnte Hafslund-prosjektet, gjort våre erfaringer og delt litt om disse gjennom årene, og som garantert kan fortelle mer fra ulike ståsteder og perioder. For min del har jeg vært involvert i ulike anvendelser av kunnskapsgrafer fra 2001 til i dag - hovedsakelig i offentlig sektor - men rådgiverrollen min i det første Hafslund-prosjektet i 2010-11 framstår nok fortsatt som et av de mest spennende...! :-)

Den opprinnelige løsningen er kanskje best beskrevet i et arkiv-orientert perspektiv i artikkelen "Hafslund SESAM - an Archive on Semantics" fra 2013, men har vært gjennom en rekke transformasjoner fram til i dag, etter hvert som teknologien (og teknologene!) har modnet seg og organisasjonen har tatt inn over seg verdien av en lett tilgjengelig, automatisk oppdatert felles "kunnskapsgraf" som gjør det enkelt å finne fram til - og fram i - de fleste relevante data i virksomheten.

Arkitekturen gjennomgikk den mest omfattende transformasjonen da Hafslund Nett i forbindelse med innføringen av nye, automatiserte strømmålere ønsket at løsningen også skulle gjøre tidsserier med timesverdier fra rundt en million målere tilgjengelige, korrekte og konsolidert gjennom i den samme kunnskapsgrafen. Representanter fra virksomheten har i ulike fora fortalt litt om verdien (eksempel fra Youtube) av det de selv etter hvert omtalte som et DataNav.

Elvia AS er i dag norges største nettselskap, og leverer strøm til rundt 2 millioner mennesker i Innlandet, Oslo og Viken. Selskapet ble til 1. januar 2020 etter en sammenslåing av Eidsiva Nett og Hafslund Nett, og kunnskapsgrafen i DataNav skal ha forenklet sammenslåingen betydelig.

Dynamisk, fullt automatisert transformasjon og mellomlagring av data fra mange kilder i stor skala er ikke trivielt - ikke når kildene endrer seg hyppig. Det hører med til historien at den innebygde sentrale dataintegrasjons- og kontekstualiseringsmotoren i DataNavet hos Hafslund Nett underveis ble skilt ut som en egen, produktifisert tjeneste, primært på Azure-plattformen, og brukes i mange sammenhenger nasjonalt og internasjonalt, gjerne som kjernen i en såkalt data fabric. (Disclaimer: Virksomheten bak tjenesten er et norsk, selvstendig selskap hvor min arbeidsgiver Bouvet fortsatt har aksjemajoritet når dette skrives).

Det er så mye mer som burde vært fortalt her, men det var i hvert fall en smakebit...! Ta evt. kontakt hvis temaet vekker interesse. Jeg innbiller meg faktisk at Norge fortsatt står i en særstilling internasjonalt når det gjelder tilgang til kompetanse innen kunnskapsgrafer på ulike nivåer! :-)

psilip commented 1 year ago

Nå blir jeg litt sånn besnært av en følelse jeg er blitt lurt av før—nemlig fornemmelsen av at nå løsner det. Jeg fikk den da foranalysen "Informasjonsforvaltning i offentlig sektor" kom ut fra daværende Difi i 2013. Og jeg fikk den da jeg satt i Wergelandssalen på Riksarkivet og så Bouvet og Hafslund presentere arbeidet de hadde gjort med å rdf-isere Noark. Det løsnet ikke noen av de gangene, men jeg har hørt at alle gode ting er tre.

@veleda, takk for at du deler om implementeringen av eInnsyn. Kan jeg anta at dette er resultatet? Jeg har siklet etter en Noark uttrykt i rdf i evigheter, og så har den vært under nesa mi hele tiden. Og så med SHACL-shapes i tillegg! (Det er vel også du som er å takke for denne shacl-masterclassen? Den har vært meg til stor hjelp.)

@ajaunsen og @stianbouvet: det gleder meg å høre at det kom noe ut av frøene som ble sådd med Sesam hos Hafslund. Jeg hadde ikke trodd det skulle ta ni år før det kom opp igjen i arkivsammenheng, men knusken er vel bare blitt tørrere i mellomtiden, så kanskje det faktisk fenger denne gangen.

Nå skal jeg gå og se om jeg kan få en fornuftig sammenheng mellom dcat:Dataset og "noark:basisregistrering" eller hva vi skulle kalt det. Neppe owl:sameAs, men faktisk ikke langt unna.

veleda commented 1 year ago

Det er en del referansesaker å se til i offentlig sektor her til lands også, ikke bare eInnsyn. Nå skal det siers, @psilip, at da vi implementerte SHACL hos eInnsyn, så var dette ett år før SHACL ble en W3C Recommendation. Jeg vet ikke hva som skjedde etter at jeg var ferdig som konsulent der dog. Men da jeg var der iallfall, ble både SHACL skjema og SHACL-motor implementert iht. working draft på tidspunktet. Standarden endret seg en del det siste året der. Og, ja. Det er min masterclass i tema du refererer til. 😄 Tar den med på The Knowledge Graph Conference neste uke. (Fun fact: SHACL-motoren til Ontotext GraphDB er norskutviklet.)

I tillegg til Digdir sitt prosjekt, så har vi jo RDF hos Deichman, Statnett, Nasjonalbiblioteket, Språkbanken, NRK, Sjøfartsdirektoratet og Oslo kommune. Har selv vært involvert i både Deichman, NRK og Sjøfartsdirektoratet.

Olje- og gass-sektoren her til lands har også vært storforbruker av RDF og ontologier. Både energiselskapene og serviceselskapene. For ikke snakke om DNV og SINTEF. Ref. SIRIUS. Her er det også hensiktsmessig å nevne norskutviklede Reasonable Ontology Templates (OTTR).

Nei, jeg tror det er mange erfaringer å hente blant referanseprosjekter i Norge. Og, ja, @stianbouvet. Vi er nok i en liten særstilling når det kommer til kompetanse her til lands. Svært god dekning for faget i akademia her i forhold til våre naboland i nord i det minste.

lvbachmann commented 1 year ago

Hyggelig å se engasjementet dette spørsmålet skapte 😀 Takk for innspill @psilip, @ajaunsen og @stianbouvet. Og en ekstra takk til @veleda som har gitt oss en introduksjon til temaene.

For arbeidet med informasjonsmodeller i StandardLab er dette i første rekke noe vi vil forsøke å ta hensyn til i form av at vi skal unngå (så langt det lar seg gjøre) å modellere/beskrive noe som ikke lar seg uttrykke som RDF og ontologier. Hvis/når vi skal uttrykke hvordan datamodeller som følge av den semantiske informasjonsmodellen kan/bør se ut vil også RDF (med relatert stack) være en svært relevant kandidat for dette.

Når det gjelder arbeidet med å uttrykke Noark som RDF faller det utenfor arbeidsområdet til StandardLab, men andre deler av Arkivverket er gjort kjent med at det blir diskutert her.

jimjyang commented 1 year ago

Hei, alle!

Fikk tips fra @psilip om denne veldig interessante diskusjonen! Som @psilip skrev så er de aller fleste nasjonale spesifikasjonene innen informasjonsforvaltning RDF-baserte.

Vi/Digdir blir gjerne med i et eller annet (Teams-)møte der vi kan fortelle mer om spesifikasjonene våre. Vi har også nylig laget et utstillingslokale der vi demonstrerer bruken av disse spesifikasjonene, og ikke minst også kryss-referanser mellom disse: https://informasjonsforvaltning.github.io/showroom/ (dette er "redaktørens utkast"-versjon av utstillingslokalet, vi holder på å publisere dette utstillingslokale under data.norge.no).

jimjyang commented 1 year ago

@lvbachmann Jeg var så ivrig å lese selve innholdet, at jeg ikke la merke til at Issuet var closed, beklager, Lars Vegard!

lvbachmann commented 1 year ago

@lvbachmann Jeg var så ivrig å lese selve innholdet, at jeg ikke la merke til at Issuet var closed, beklager, Lars Vegard!

@jimjyang Issue er lukket fordi vi har konkludert med hva vi gjør på kort sikt. Innspill som hjelper oss med å gjøre de riktige tingene på lang sikt er naturligvis fortsatt velkommen.