salgo60 / NOSAD-POC-Wikidata

POC Nosad koppling WD
https://salgo60.github.io/NOSAD/
3 stars 0 forks source link

Persistenta identifierare för öppen programvara inom offentlig sektor #17

Open salgo60 opened 1 year ago

salgo60 commented 1 year ago

Kanske en kandidat se länk

image
jonassodergren commented 1 year ago

Myndigheterna borde definitivt identifieras med en identifierare. Tyvärr kan jag bara föreslå orgnummer, vet ej om det finns ett annat sätt.

jonassodergren commented 1 year ago

Lite teoretiskt vill jag att https://offentligkod.se/item/"https://gitlab.com/arbetsformedlingen/designsystem" borde ge utslag på om programvaran används eller inte. Men det kanske är mer än tjänst som är enkelt att bygga, och inte något som ska blandas ihop med identifieraren.

salgo60 commented 1 year ago

@jonassodergren kolla med ESV hur dom tänker....

image
salgo60 commented 1 year ago

Myndigheterna borde definitivt identifieras med en identifierare. Tyvärr kan jag bara föreslå orgnummer, vet ej om det finns ett annat sätt.

Skall man bli filosofisk så skulle vi vilja kunna se myndigheter över tid och ha relationer mellan olika länders myndigheter.... tror Datastory funderar lite på det med att versionshantera politiska processer i sin artikel "Fork me: The version-controlled political party"

image

5 star data Riksdagens Öppna data Det som jag saknar är att när instruktioner hos Riksdagen öppna data publiceras så anges myndigheterna endast med text strängar i bröd text.... vi har försökt säga till Riksdagen att 5-star data är nödvändigt men gissar att vi saknar ett Digitalt ekosystem där lagar, motioner i Riksdagen kopplas till EU, myndigheter etc....

jonassodergren commented 1 year ago

Intressant. Jag är mer på en superkonkret nivå. https://www.bolagsverket.se/bolag/{orgnummer} borde finnas kan jag tycka.

salgo60 commented 1 year ago

;-) du har ett jobb jag har en hobby som skall ge mig lite intellektuell stimulans på min ålders höst...

Exempel DIGG som borde ha en identifierare som finns med redan när den får sin instruktion i Riksdagens Öppna data

där borde Riksdagens öppna data ha

image
salgo60 commented 1 year ago

Identifiera myndighet ESV i data set Utgifter januari 2022 csv

image
jonassodergren commented 1 year ago

Katalogen har börjat att användas nu. Så nu är det fullt möjligt och lämpligt att börja tillhandahålla katalogen som ett dataset, flera organisationer verkar ha haft nytta utav den. Varje programvara kan definitivt identifieras med en unik URI. Det går att lösa, risken är att det blir att egenpåhittat nummer. Typ https://offentligkod.se/programvara/UUID eller dylikt. Tror inte standarden https://github.com/publiccodeyml/publiccode.yml/blob/main/docs/standard/example/publiccode.yml föreslår ett id-nummer per mjukvara. Ska rådfråga @Ainali som kanske har en idé.

Ainali commented 1 year ago

Ska rådfråga @Ainali som kanske har en idé.

I kriteriet Make the codebase findable i Standard for Public Code föreslår vi antingen ett objekt i Wikidata, eller att skapa en post i FSF's Free Software Directory för att få ett ID.

salgo60 commented 1 year ago

risken är att det blir att egenpåhittat nummer

eller så är det en bra tillsvidare lösning eller tills vi lär oss mer...

Tror inte standarden https://github.com/publiccodeyml/publiccode.yml/blob/main/docs/standard/example/publiccode.yml föreslår ett id-nummer per mjukvara

@jonassodergren Känns spontant fel att inte ha unika identifierare har inte pip install massa möjligheter att ange dependencies och peka på det unika modul namnet

image
salgo60 commented 1 year ago

att skapa en post i FSF's Free Software Directory för att få ett ID.

Wikidata egenskap Property:P2537

image
jonassodergren commented 1 year ago

Tack för bra återkoppling @Ainali och @salgo60. De flesta programvaror kommer vara sådana som används av offentlig sektor, om de programvarorna som används själva har ansökt eller inte är svårt att kontrollera. Just Python lider extremt mycket av https://en.wikipedia.org/wiki/Transitive_dependency där det ej går att styra tredjepart-bibliotek, och resultatet är programvaror som har tydliga versionsnummer där koden för samma version skiljer sig åt beroende på tid. Så jag glömmer din python-klommentar.. ;)

salgo60 commented 1 year ago

Japp läser man länken i min post så sa dom ung, det.... steg 0 är nog bara att veta att man pratar om samma saker... att skapa en "Dependency Manager" är en annan nivå gissar jag.... 😃

En tanke som slår mig är att vi kanske borde ha dependency grapher mellan olika data set dvs. att dataset A på dataportalen fungerar med dataset B,C,D,E genom att vi har en gemensam termkatalog.... tycker WD mönstret med egenskaps namn som P + siffra e.g. P2537 är snyggt och sedan kunna visa det på flera språk ex. lista känns 2022...

image
jonassodergren commented 1 year ago

Ett API eller dylik teknik för att tillhandahålla data brukar oftast följa https://semver.org/. Har faktiskt reflekterat över att det inte finns en korrelation mellan mjukvarans version och datans/innehållets version. Någon borde ha tänkt på det.

salgo60 commented 1 year ago

mellan mjukvarans version och datans/innehållets version

börjar du inte ha det när man kan ta hem hela Notebooks / eller container kits som Docker ?!?!? Har för mig att standard installationen av Jupyter så kan man köra ett exempel med en Nobelprisvinnare......

Gissar att vetenskapliga rapporter är mer noggranna...

Steg 0: Är nog DOI för att peka unikt på dataseten gärna med version....

jonassodergren commented 1 year ago

Exempelvis en docker-image med en version som stegas från 1.2.3 till 1.2.4 till 1.3.0 innehållande ett api kan ha oförändrad datamodell, eller så har flera nya informationsattribut tillkommit. Troligtvis har ej information tagits bort då det leder till att API:et ej är bakåtkompatibelt. Informellt hanteras versionen av datan oftast i dokumentation, men känner inte till en "best practice". Vetenskapliga artiklar är primärt bra på att ange referenser till data.

salgo60 commented 1 year ago

@jonassodergren ny förkortning GUPRI Globally Unique, Persistent and Resolvable Identifier - video

cc: @dpriskorn tror FAIRDATA och FAIR-principles är ett bättre begrepp att trumma in än 5-stardata appropå ditt inlägg på portalen. Tror det även kan duga till att skapa en dashboard hur olika dataset uppfyller detta

image
dpriskorn commented 1 year ago

Myndigheterna borde definitivt identifieras med en identifierare. Tyvärr kan jag bara föreslå orgnummer, vet ej om det finns ett annat sätt.

Jag ringde ESV och frågade om beständiga identifierare på myndigheterna. Orgnummer görs av scb tydligen. Oklart om det är stabilt över tid.

Ainali commented 1 year ago

Oklart om det är stabilt över tid.

Tills något talar för motsatsen tror jag att vi lugnt kan förutsätta att det är stabilt.

salgo60 commented 1 year ago

Tills något talar för motsatsen tror jag att vi lugnt kan förutsätta att det är stabilt.

Vi kan ju hanterar det i Wikidata precis som vi gör med kommunkoder som förändras för kommuner

image
dpriskorn commented 1 year ago

Tack för bra återkoppling @Ainali och @salgo60. De flesta programvaror kommer vara sådana som används av offentlig sektor, om de programvarorna som används själva har ansökt eller inte är svårt att kontrollera. Just Python lider extremt mycket av https://en.wikipedia.org/wiki/Transitive_dependency där det ej går att styra tredjepart-bibliotek, och resultatet är programvaror som har tydliga versionsnummer där koden för samma version skiljer sig åt beroende på tid. Så jag glömmer din python-klommentar.. ;)

Jag har börjat med poetry nyligen och den skapar en låsfil så jag kan garantera att jag testat på exakt samma biblioteksversioner som användaren får vid installation 😀

dpriskorn commented 1 year ago

@jonassodergren ny förkortning GUPRI Globally Unique, Persistent and Resolvable Identifier - video

cc: @dpriskorn tror FAIRDATA och FAIR-principles är ett bättre begrepp att trumma in än 5-stardata appropå ditt inlägg på portalen. Tror det även kan duga till att skapa en dashboard hur olika dataset uppfyller detta

image

Tack, enig FAIR verkar bättre 😊

jonassodergren commented 1 year ago

Håller med, FAIR-data är mer omfattande. @dpriskorn du kommer långt med en låsfil, men inte hela vägen. =)

Ainali commented 1 year ago

Jag vill bara notera att det är riskfyllt att marknadsföra FAIR-data som något önskvärt då de den tillåter alla möjliga slags licenser som till exempel för icke-kommersiell användning eller sådana som begränsar bearbetning (t.ex. CC BY-NC och CC BY-ND).

Det vill säga, bara för att något uppfyller FAIR, så är det inte nödvändigtvis öppna data. Detta kan såklart vara mycket förvirrande varför jag föreslår att när man vill uppmuntra till publicering av öppna data, inte bör föreslå FAIR alls då det riskerar att få någon att helt missa målet trots att de uppfyllt kraven för det som man föreslagit.

salgo60 commented 1 year ago

Ok @Ainali jag är nog i steg 1 ute efter att saker har identifierare och externa länkar så FAIRDATA är åt rätt håll till att ha bättre data och kanske få data leverantörerna att se vad som saknas.... status idag när vi tvekar på hur en myndighet identifieras efter 10 år med dataportalen känns galet...

Min test med Nobeldata och att dom säger samma som Wikidata gör att vi vet på 5 sekunder vem som får årets Nobelpris så skall all data vara se #13 tänk om Riksdagens Öppna data och Kommunernas Anslagstavlor var designade med samma kvalitet på metadatan och med externa referenser dvs. 5 Star data

Jag gillar Daniel Mietchens presentation 2017 hur snyggt Wikidata Wikibase uppfyller FAIRDATA

Vid 8 min https://media.ccc.de/v/wikidatacon2017-10041-lightning_talk_session_4#t=468

dpriskorn commented 1 year ago

Jag vill bara notera att det är riskfyllt att marknadsföra FAIR-data som något önskvärt då de den tillåter alla möjliga slags licenser som till exempel för icke-kommersiell användning eller sådana som begränsar bearbetning (t.ex. CC BY-NC och CC BY-ND).

Det vill säga, bara för att något uppfyller FAIR, så är det inte nödvändigtvis öppna data. Detta kan såklart vara mycket förvirrande varför jag föreslår att när man vill uppmuntra till publicering av öppna data, inte bör föreslå FAIR alls då det riskerar att få någon att helt missa målet trots att de uppfyllt kraven för det som man föreslagit.

Tack för påpekandet om detta. Jag tänker att om vi ber om FAIR data som även följer DIGGs rekommendationer om öppna data då kommer vi runt detta i de flesta fall.

Ainali commented 1 year ago

Ska man använda FAIR, så skulle jag säga att det endast är användbart för kvalitetskontroll av data som redan är öppen. Att försöka göra öppen data av oöppen FAIR data är mycket svårare. (Dvs. be om öppna data som följer DIGGs rekommendationer, samt även FAIR data principles snarare än i den andra ordningen.)

salgo60 commented 1 year ago

Ska man använda FAIR, så skulle jag säga att det endast är användbart för kvalitetskontroll av data som redan är öppen. Att försöka göra öppen data av oöppen FAIR data är mycket svårare

@Ainali förklara gärna hur du tänker att rensa upp licens info känns för mig snabbt men kanske politiskt jobbigt... Att fixa dålig metadata kvalitet är att starta om från scratch igen och "tidigare jobb" är bortkastat....

Kollar vi på kultursektorn uppfattar jag att dom är mycket mera "mogna" då det gäller licens än kommuner och myndigheter

Exempel

MEN den metadata som skickas är mest textsträngar trots att man i fallet Europeana har skickat data > 10 år - min blogpost

OT men frustrerande med KB att dom inte är tydliga med vad som görs, produktionssätts etc... vi vet inte om dom gjort något med licenser sedan dom svara 2019 nov

image
Ainali commented 1 year ago

Även om du i teorin har rätt i att det kan ta 10 sekunder att byta licens så är min erfarenhet att det är en sorts myndighetsbeslut som en enskild tjänsteperson inte kan göra. Istället bollas det upp en nivå, jurister blandas in och beslut drar ut på tiden.

Därför är det min åsikt att det är viktigare att få licensen rätt först så att man kan undvika att behöva städa i den frågan. För att alla de andra dataförbättringarna kan en enskild tjänsteperson eller projektgrupp bestämma att genomföra själva (förutsatt att det finns tid budgeterat).

salgo60 commented 1 year ago

@Ainali tack. Jag tycker att

Min tro:

salgo60 commented 1 year ago
image
jonassodergren commented 1 year ago

Uppdatering. (Ignorera fältnamn)

{
    "taggar": "Identity and Access Management (IAM)",
    "programvara": "EJBCA",
    "usedBy": "RPS",
    "link": "https://www.ejbca.org",
    "beskrivning": "Programvara för utgivning och hantering av digitala certifikatr",
    "id": "0ca53b5b2582ccf4e7a49cc474d52287"
  },
  {
    "taggar": "Spring",
    "programvara": "Spring Boot",
    "usedBy": "LFV",
    "link": "https://spring.io/projects/spring-boot",
    "beskrivning": "r",
    "id": "130469dc36ad9c42a4e242ba34dc81a8"
  },
  {
    "taggar": "Geodata. System för lagring; hantering; analys och visualisering",
    "programvara": "QGIS",
    "usedBy": "SMHI",
    "link": "https://www.qgis.org",
    "beskrivning": " Generellt geodata(GIS)-verktyg som kan analysera; bearbeta och visualisera geodata från alla förekommande källor.r",
    "id": "1312d51d8f9ad69aef4124261ea584bb"
  }

Just nu skapas id-numret (en MD5-hash) baserat på URI:en till mjukvaran som får anses unik. Känns ganska flexibelt.

Leder till följande mönster för att identifiera en programvara: https://offentligkod.se/api/programvara/130469dc36ad9c42a4e242ba34dc81a8

Tyck gärna till.

salgo60 commented 1 year ago

@jonassodergren FYI @Ainali twittrade

Tror ju fler externa identifierare du har desto bättre.... Tim Berners Lee säger att data is relations

image
dpriskorn commented 1 year ago

Uppdatering. (Ignorera fältnamn)


{

    "taggar": "Identity and Access Management (IAM)",

    "programvara": "EJBCA",

    "usedBy": "RPS",

    "link": "https://www.ejbca.org",

    "beskrivning": "Programvara för utgivning och hantering av digitala certifikatr",

    "id": "0ca53b5b2582ccf4e7a49cc474d52287"

  },

  {

    "taggar": "Spring",

    "programvara": "Spring Boot",

    "usedBy": "LFV",

    "link": "https://spring.io/projects/spring-boot",

    "beskrivning": "r",

    "id": "130469dc36ad9c42a4e242ba34dc81a8"

  },

  {

    "taggar": "Geodata. System för lagring; hantering; analys och visualisering",

    "programvara": "QGIS",

    "usedBy": "SMHI",

    "link": "https://www.qgis.org",

    "beskrivning": " Generellt geodata(GIS)-verktyg som kan analysera; bearbeta och visualisera geodata från alla förekommande källor.r",

    "id": "1312d51d8f9ad69aef4124261ea584bb"

  }

Just nu skapas id-numret (en MD5-hash) baserat på URI:en till mjukvaran som får anses unik. Känns ganska flexibelt.

Leder till följande mönster för att identifiera en programvara:

https://offentligkod.se/api/programvara/130469dc36ad9c42a4e242ba34dc81a8

Tyck gärna till.

Jag har ett förbättringsförslag 😀 Använd Wikidata QID i used by också. Tex UsedBy: { name: LFV, wikidata: Q12345 } Samma för taggar och programvara. Om programmet mot förväntan saknas på Wikidata kan du pinga mig så fixar jag det 😀 Då bliver det lättläst och maskinläsbara länkar på samma gång 😀

salgo60 commented 1 year ago

@dpriskorn hittade detta cc: @jonassodergren

Myndigheterna borde definitivt identifieras med en identifierare. Tyvärr kan jag bara föreslå orgnummer, vet ej om det finns ett annat sätt.

image image
dpriskorn commented 1 year ago

Vad jag kan se så finns inget offentligt register utanför Wikidata med alla svenska myndigheter på ett ställe inklusive unika beständiga identifierare. Jag tänker fråga SCB om orgnummer är beständigt, om de återanvändas likt nummerplåter eller liknande.

salgo60 commented 1 year ago

Körde Open Refine och åtminstone en ny

salgo60 commented 1 year ago

Fondtorgsnämnden ny myndighet -->

image

Lesson learned:

dpriskorn commented 1 year ago

Myndighetsregistret har varken API, SPARQL eller ändringsström heller så vi kan inte lätt samköra och säkerställa att datan är korrekt. API first verkar inte ha spridit sig till myndigheterna än.

salgo60 commented 1 year ago

@dpriskorn Och frågan är var man skall börja

image

Att sedan ha i ryggsäcken misslyckande som Rättsinformationssystemet som efter 15 år ger upp och misslyckas med att 100 myndigheter skall leverera några 1000 dokument, så borde man inse att en ny myndighet som verkar helt misslyckats med att jobba transparent inte blev bra

Min tro

Samma passivitet som med museer ingen bryr sig och blir förbannad... vi behöver folk som tar fighten... säger jag till ESAM att deras digitala data länkar författningar vi inte kan hitta SKALL DOM REAGERA

dpriskorn commented 1 year ago

Fixade Wikipediaartikel. Citeq verkar saknas. 🤷‍♂️

salgo60 commented 1 year ago

Fixade Wikipediaartikel. Citeq verkar saknas. 🤷‍♂️

@dpriskorn kollar du wikidata objektet för mallen Q22321052 så finns svWikipedia vet inte om alla funktioner finns

image

Tyvärr är svWikipedia gubbarna inte helt övertygade att saker skall citeras via WD

salgo60 commented 1 year ago

@gjonor uppdaterade NOSAD org.csv och jag reflekterade över fördelen att ha WIkibase istället för GITHUB

fördelen om vi "tar steget över" till Wikibase är att då

GITHUB tycker jag har massa fördelar men jag tycker Wikibase med modellen att kunna ha motstridiga egenskaper och att kunna modulera saker som värdmyndighet se vad jag försöker göra med nya myndigheten Fondtorgsnämnden är det vi skall men jag ser inte att laguppställningen finns och ingen pratar om att skapa ett nytt ekosystem..... NOSAD är bra men lösa diskussioner löser inte saker...

gjonor commented 1 year ago

Ja jag tänker i samma banor och funderar över metodiken för att överföra datan till Wikibase. Hur ska datamodellen se ut och hur görs inmatningen.

salgo60 commented 1 year ago

Det tekniska tycker jag Wikidata visar på går att rel. enkelt går att göra av folk med olika bakgrund men var är laget som skall göra detta med myndighetsdata.... ?

image

Att hoppas på att detta ekosystem skall kunna leverera Länkade data där > 200 myndigheter och 290 kommuner utan ett fungerande ekosystem, utan publika backlogs, med massa misslyckande bakom sig skall skapa saker ihop är inte seriöst.... det är bara DIGG som har ett mantra att Sverige skall bli bäst

jonassodergren commented 1 year ago

Har nu uppdaterat programvarukatalogen, https://offentligkod.se/, med ett enklare API https://offentligkod.se/api. API:et är i sin enklaste form, ska fixa till det de närmsta dagarna. Men vad sa vi om identifierare för myndigheter? Kom vi fram till att orgnummer är den enda lösningen?

jonassodergren commented 1 year ago

Publicerade sök-indexet också för den intresserade, https://offentligkod.se/index.json.

dpriskorn commented 1 year ago

Har nu uppdaterat programvarukatalogen, https://offentligkod.se/, med ett enklare API https://offentligkod.se/api. API:et är i sin enklaste form, ska fixa till det de närmsta dagarna. Men vad sa vi om identifierare för myndigheter? Kom vi fram till att orgnummer är den enda lösningen?

Det är i dagsläget oklart eftersom SCB inte svarade på min fråga om de är beständiga över tid 🤷‍♂️ Jag föreslår att ni skapar egna och säkerställer deras beständighet själva. Ni kan ju ha med orgnummer också i ett fält men inte lita på det över tid. Då kan vi i Wikidata och oswald länka till NOSAD orgid som man kan slå på i er API.

dpriskorn commented 1 year ago

Har nu uppdaterat programvarukatalogen, https://offentligkod.se/, med ett enklare API https://offentligkod.se/api. API:et är i sin enklaste form, ska fixa till det de närmsta dagarna. Men vad sa vi om identifierare för myndigheter? Kom vi fram till att orgnummer är den enda lösningen?

Önskar mig sameAs -> wikidata ->QID för alla poster. För första posten kan ni tex länka till Q946976 null om programvaran inte finns än i wikidata.

jonassodergren commented 1 year ago

Bra. Kan ni hjälpa mig att hitta lämpliga QID för programvaror så lägger jag in sameAs? Om wikidata har lika informativa sidor som Q946976 ska jag överväga en "läs mer" funktion i gränssnittet som länkar till wikidata.