Closed andre-jernung closed 7 months ago
Håller med RAÄ håller på med httpkoder och gissar varför saker försvunnit det känns inte 2023
Exempel med RAÄs bebyggelseregistet där vi hittade flera 1000 döda länkar och RAÄ själva började gissa att det är copyright osv sv... RAÄ är en myndighet som lekt med detta i > 10 år och har ingen vettig helpdesk där man får ett helpdesknummer och en sida man kan följa ärendet --> gör datat blir mer eller mindre oanvändbart för andra än Wiki entusiaster...
jag skulle vilja säga ha en kunskapsgraf där man kan följa livscykeln, tycker det även skall vara tydligt hur en PID föds där kan man titta på EEA hur dom beskriver kriteriet och vem man kontaktar om man vill ha en ny
data element bathingWaterIdentifier 99263
Methodology for obtaining data
Must be a valid bathing water identifier in
the "WFDProtectedArea" registry ( https://dd.eionet.europa.eu/vocabulary/wise/WFDPro... ).
New bathing water identifiers
must be reported under
"Bathing Water Directive -
Identification of Bathing Waters - 2019" ( https://rod.eionet.europa.eu/obligations/788 )
Contact bwd.helpdesk@eionet.europa.eu for support if
you need to report additional
bathing water identifiers.
UM-10 säger bara att man ska svara med status koden 410. Det är alltså inte förbjudet att skicka med en message body i t.ex. html som motsvarar en tombstone. HTTP specen tillåter detta: https://www.rfc-editor.org/rfc/rfc9110#name-core-semantics.
Eventuellt kan man också använda link rel=sunset då den: "Identifies a resource that provides information about the context's retirement policy."
Den definieras här: https://www.rfc-editor.org/rfc/rfc8594.html
UM-10 säger bara att man ska svara med status koden 410.
Det är alltså inte förbjudet att skicka med en message body i t.ex. html som motsvarar en tombstone.
HTTP specen tillåter detta: https://www.rfc-editor.org/rfc/rfc9110#name-core-semantics.
Men som Niklas på KB sa i den video intervju Mathias gjorde med honom för 9 år sedan "städa vid källan inte ha ett reningsverk vid varje handfat" det bör vara tydligt att för konsumenten av en PID varför, blir det bara en rekommendation att förklara så blir det samma antipattern vi ser hela tiden med öppna data att det levereras massa textsträngar som jag som konsument skall städa upp och tolka... varje sten vi lyfter på visar ett kaos och avsaknad av informationsdesign...
DIGG använder ordet främja allt för ofta istället för att ställa krav och säga skall eran organisation leverera data på högsta nivå så uppfyll följande krav #10
Skall vi gå från dagens data silos till där kommuner har sina beslut, kommentarer utredningar med Persistenta Identifierare så behövs saker som ovan vara enormt tydliga att det förväntar vi oss av data leverantören.
Bilden ovan ett beslut om nytt Naturreservat som 2023 Naturvårdsverket vet om och verkar inte kunna leta fram själva utan ber mig prata med Tyresö kommun.... Här borde Tyresö kommun fått en PID av Naturvårdsverket och Naturvårdsverket peka tillbaka på beslutet i sina register... att inte vara tydlig vad som förväntas av olika aktörer blir inte bra... idag verkar det mesta vara ett kaos...
Mitt RAÄ exempel ovan så la vi ned 10 tals timmar att förstå problemet som efter 1 år kommenterades av RAÄ att nu var det fixat dvs. det var nog en bugg hos RAÄ....
Mer tydlighet hur man uppträder för att vara bäst i klassen Tack
Min Issue #4 "att skapa Best practices" känns mer än viktigt om detta skall bli något... plus att vi får inte ramla in i den vanliga DIGG fällan att det bara blir en pdf spec utan att ett ekosystem byggs kring detta med att hantera livscykeln med persistenta identifierare från att
Jag testade 2023-09-08 att köra igenom 173 000 länkar Wikidata -> RAÄ där RAÄ inte har följt Best Practices for Tombstone Pages som rekommenderas ovan utan endast ger dig http-koden plus en statisk text --> att städaktiviteten att förstå vad som sker blir konsumentens problem = "ett reningsverk vid varje handfat" --> Maintenance hell
This page conforms to best practices for tombstone pages.
1) It contains a full bibliographic citation of the item, so users can confirm they have located the correct item. 1) It includes the DOI displayed as a URL. 1) It gives a reason for the unavailability of the item.
Exempel fel från RAÄ
Number records in Wikidata: 173028
OK: 169250 not ok 3775
Ended: 2023-09-08 14:04:25.417392
På Wikipedia diskuterades detta fel från 27 september 2020
RAÄ saknar publika backlogs och enkelhet att logga fel med helpdeskid --> maintenance hell för konsumenten
Att kontinuerligt kolla av sina PID:ar och datakällor dom kopplar till som Wikidata gör Humlab Riksdagens Corpus något som alla måste göra...Jag sliter en del med Svenska Riksdagsmän och Wikidata där ett forskningsprojekt Riksdagens corpus valt att ange samma som Wikidata eftersom Wikipedia är den organisation som har bäst kunskap över svenska Riksdagsmän över tid i Sverige (borde vara Riksarkivet och Sveriges Riksdag eller Kungliga Biblioteket...)
I körningen ovan finns ett bra mönster att man i PID:en kan se agenten exempel /LSH/agents/12250 --> LSH
1) jag vet för jag strulat en del med detta data att LSH var "Livrustkammaren och Skoklosters slott med Stiftelsen Hallwylska museet"
1) Resultatet av denna gegga Wikidata har nu 1902 "fel i wikidata" som har denna agent
1) min gissning är att dessa finns nu hos SHMM se artikel 2017-06-01 "SHMM och LSH går samman" och 2023 efter 6 år har dessa poster
1) troligen blivit flyttade till SHMM
2) I wikidata har SHMM lagt till en ny WD egenskap med Wikimedia Sveriges hjälp se egenskapsdiskussion för Id i Statens historiska museers samlingar som blev Property:P9495
3) Wikimedia Sverige användare AliciaFagerving(WMSE) och LinneaKarlberg har sedan lagt in Property:P9495 > 30 000 ggr i Wikidata
4) Någon på RAÄ tänker inte persistenta identifierare och att externa aktörer fortfarande pekar på dom med det gamla id:et --> att man tar bort det och ger oss konsumenter "Felkod: 404 (Not Found) Service: Ksamsök."
Flera fel gjorda lesson learned är att skapa detta kaos är inte bara att ett fel görs man brukar prata om "a trail of shit"...
1) RAÄ borde informerat var den nya platsen för identifieraren är inte bara skicka 404 2) RAÄ borde ha implementerat observer pattern så aktörer som Wikidata kan fånga upp detta innan vi får problem 1) den som lägger till nya egenskapen i Wikidata borde ta bort den gamla eller i Wikidatas fall ange skäl Q122746164 både på svenska och engelska se ex. Q28967664#P1260 - svenska / engelska 1) se #4 "Best practice: Support depreciated and reason for deprecated rank"
En snygg implementering av Observer pattern vore att även i löst kopplade system kan saker som citation graphs skapas....
dvs. att en SFS som Riksdagen har skulle kunna ha koll på vilka myndighetsförfattningar som refererar den, att utredningar som refereras kan am med ett klick kunna se vilka som refererar till den se #100 #85 status idag är att ex. Esamverkan publicerar dokument som refererar myndigheter som upphört och ligger i en kartong hos Riksarkivet dvs. det saknas helt vettig dokumenthantering vilket jag ser som en brist i vår demokrati och att Sveriges Riksdag inte har 5-star data
F.k. : fr.o.m. igår 2021-09-06 ska 10 537 BeBR-poster som var tillfälligt borttagna ur K-samsök (svarade med 410) vara tillbaka i indexet. De beständiga kulturarvsdata.se-URI:erna svarar igen antingen med 200 + RDF/XML / JSON-LD, eller 302 + ompekning till källan (posten hos Bebyggelseregistret) beroende på anropets Accept-headers
Behovet av best practices #4 är stort för att styra icke digitala organisationer att fungera i ett ekosystem med persistenta identfierare
Problem 4: Hur skall problem med Persistenta identifierare kommuniceras/felanmälas när flera organisationer är inblandade... idag saknas en infrastruktur för att jobba ihop
UPDATE 2023-10-03:
Problem5: Skall vara enkelt att på landningssidan av en Persistent identifierare se
Pratade nyss med Linnea (som snabbt svarat på twitter) och det verkar vara helt fel i RAÄs del - allt skall levereras dit och det ligger i Linneas backlog att ladda upp fler objekt dvs. min killgissning ovan att Wikidata inte skall peka på kulturnav är nog fel
@carwash vad är RAÄs take på detta? 1) går det att logga ett fel hos er och få ett helpdesk nummer som jag kan följa status på, om ja hur 1) kan jag skicka in 3775 fel(httpkod != 400) och ni rapportera tillbaka det på ett vettigt sätt? 1) trevligast vore det att se Notebook kod exempel hur jag som konsument kan stämma av status med ert data och om det finns helpdesk ärenden kopplade till PID:en med fel 1) att det finns ett API där man kan direkt skapa avvikelser jmf dom PR Riksdagens corpus gör som skapar avvikelser och det blir enkelt att pinga in t.ex. mig se ovan "Problem 2: RAÄ saknar bra mönster för att hitta länkröta i sina system - jmf Humlab Riksdagen Corpus" 1) finns det beskrivet vad som skall göras med LSH objekten? Är det redan ett helpdesk ärende? 1) finns dialogen med Statens historiska museer och Linnea dokumenterad vad som skall göras eller finns det dokumenterat vad ni gjort och av vem och varför dvs. har ni spårbarhet 1) hur sker återkopplingen till Statens historiska museer känns väldigt udda att deras Intendent digital förmedling blir överraskad vad som fungerar och inte fungerar... finns det en förklaring vad som saknas i eran dialog med dom och planer att jobba mer proffsigt ihop 1) jag blir lite mörkrädd att det "bara" pratas httpkoder i detta rep och inte att skapa fungerande ekosystem tycker misslyckandet med öppna data där vi bara ser datasilos 2023 och inte länkade data borde få DIGG att tänka om att dagens sätt att "främja" måste ersättas med styra upp... 1) RAÄ har varit inblandad i Europeana där massa museer skickat ned > 50 miljoner bilder och använder textsträngar --> Wikipedia inte länkar Europeana för att kvaliten är så dålig dvs. flera 100 miljoner Euro bortkastat och ett ekosystem som inte fungerar... 1) min hobby analys av RAÄs ekosystem med museerna #33 icke lärande organisationer 1) när uppenbara fel i dialog och utförande hittas hur jobbar RAÄ då? Gör ni en root cause analysis och loggar detta om ja var kan vi se detta och kan andra myndigheter följa hur ni förbättrar er organisation eller sker allt ad hoc dvs. level 1 i CMM Maturity model? det vi på utsidan ser är icke lärande organisationer se försök att ha dialog med muserna under 1 år om Riksdagsmän och ange persistenta identifierare och samma som #42 liknande dialog med projekt #359 Riksdagens Corpus
![image](https://github.com/diggsweden/persistent-identifiers-investigation/assets/14206509/be2b5f35-3813-497d-948b-38d47bb1a3c4)
1) finns planer att bygga om denna del så det blir bättre för oss konsumenter? Om jag fattar rätt så utreds nästa version K-samsök 2.0 hur långt har ni kommit var kan man följa detta er video 2023-jul är enormt ytlig och säger ingenting mer än Europeanas video från 2012 ;-) finns de krav ni skall uppfylla beskrivna.... finns projektet på GITHUB.... 1) har ni börjat att speca och peka på de krav som detta projekt skall uppfylla ? Som jag sa tidigare så vore det snyggt att ha detta projekts krav som Öppna data med Persistenta identifierare som RAÄ skulle kunna peka på och kunna ha sina egna krav som länkade data.....
Vet inte om ni är mogna för detta men PID livscykeln borde styras upp så att det skalar även mellan olika länders PID:ar och då tänker jag på mer avancerat än http:koder jag tror det skall till bra API:er, SPARQL federation "The Magnus list" det jag ser ovan av RAÄs httpkod baserade "lösning" är att det lätt blir en datasilo med dålig data... men det kanske är en början.... blir ofta lite ghosting då man pekar på problem och vill ha dialog ( se skuggbackloggar)...
Wikidata ser behovet att olika intressenter pratar ihop sig så dom har skapat ett event nu 2023 och jag försöker få med forskare på Riksdagen corpus som nu bygger stora delar av sitt ekosystem på Wikidata på gott och ont se länk där jag tycker dom borde jobba med egna kunskapsgrafer och jobba mer internationellt som ParlaMINT
WIkidatas utmaning idag är löst kopplade system med olika mogenhetsgrad och en community som bygger på frivillighet... se lista med externa Wikidata egenskaper som idag > 8200 / enbart svenska > 100 tyvärr så skapas inte så många svenska egenskaper lite pga av att initiativ som detta om att standardisera PID hanteringen inte landat och det kaos vi har med massa datasilos utan publika backlogs...
Exempel hur Persistenta identifierare kopplar ihop två löst kopplade system...
Bra exempel som jag tweetade om att RAÄ måste följa "The Magnus List" om man skall kunna hantera livscykeln med persistena identifierare och samspel med dom som "konsumerar" deras datat
SND har funderat på ett grundläggande informationspaket som hör samman med en tombstonesida för avpublicerat material. Vi har baserat det på Schema.org även om det finns många andra tänkbara lösningar. Vi har inte kunnat hitta kontrollerade termer som exakt mappar mot svensk förvaltning av handlingar, men EU:s OP Core har en lämplig status baserad på ADMS (https://www.w3.org/TR/vocab-adms/) där Completed/Deprecated/UnderDevelopment/Withdrawn finns tillgängliga och Withdrawn mappar mot avpublicerade handlingar.
På detta sätt går det att garantera information om hur en handling har hanterats. Syftet är också att underlätta myndighetsutövningen och efterlevnaden av t.ex. kraven i RA-FS 2009:1 och annan relevant lagstiftning som berör hanteringen av allmänna handlingar i elektronisk form.
Obligatoriska
Koncept | Schema | Typ |
---|---|---|
Handling toppnivå | schema.org::CreativeWork | self |
Handlingens namn | schema.org::CreativeWork::name | Text |
Handlingens beständiga identifierare | @id och schema.org::CreativeWork::identifier | URL |
Ansvarig myndighet | schema.org::CreativeWork::publisher | schema.org::Organization |
Avpublicerad? | schema.org::CreativeWork::creativeWorkStatus | schema.org::DefinedTerm::identifier = http://publications.europa.eu/resource/authority/distribution-status/WITHDRAWN |
Avpubliceringsstatus toppnivå | schema.org::UpdateAction | schema.org::Action |
Handling som avpublicerats | schema.org::UpdateAction::object | self |
Ansvarig för avpublicering (chef/funktion) | schema.org::UpdateAction::agent | schema.org::Person eller schema.org::Organization |
Tidpunkt för förändring av handlingsstatus | schema.org::UpdateAction::startTime | schema.org::DateTime |
Anledning till avpublicering (fritext) | schema.org::UpdateAction::description | Text |
Aktuell handlingsstatus (avpublicerad) | schema.org::UpdateAction::result | schema.org::DefinedTerm::identifier = http://publications.europa.eu/resource/authority/distribution-status/WITHDRAWN |
Valfria (ett urval av många möjliga)
Koncept | Schema | Typ |
---|---|---|
Annan identifikator t.ex. diarienr | schema.org::CreativeWork::identifier | Text eller schema.org::PropertyValue |
Version av handling | schema.org::CreativeWork::version | Number eller Text |
Beskrivning av handling (fritext) | schema.org::CreativeWork::description | Text |
Ansvarig tjänsteman | schema.org::CreativeWork:: accountablePerson | schema.org::Person |
Motsvarande hantering med HTTP 300? | Koncept | Schema | Typ |
---|---|---|---|
Om handling också har ersatts av något annat som inte bör ha en tvingande redirect, t.ex. en konceptuell motsvarighet | schema.org::ReplaceAction | schema.org::Action | |
Tidpunkt för ersättningsstatus | schema.org::ReplaceAction::startTime | schema.org::DateTime | |
Handling som ersatts | schema.org::ReplaceAction::replacee | self | |
Handling den har ersatts av | schema.org::ReplaceAction::replacer | schema.org::CreativeWork | |
Handling den har ersatts av, beständig identifierare | @id och schema.org::ReplaceAction::replacer::identifier | URL |
Noterar också att @salgo60 har uppmärksammat den vikt som EOSC lägger på utförlig maskinläsbar tombstoneinformation. Detta kommer sannolikt bli standard för statlig datadistribution i EU, så det är en god idé att få med en grundläggande implementation redan nu även om den inte är perfekt.
@andre-jernung tack för att du lyfter betydelsen/möjligheter med persistenta identifierares och som jag ser det den enda vägen framåt idag ser jag datasilos och massa länkröta... tror saker skall kopplas mer till Fair data och saker som FAIR Data Maturity Model DOI: 10.15497/rda00045 pdf och The FAIR Cookbook for FAIR doers
Jag jobbade med internationella banktransaktioner som konsult på SEB och för att hantera hur 2 banker kommunicerar avvikelser och problem definierades Swift jag tror för att detta med persistenta identifierare skall bli bra så behövs något liknande... och att anledningen skall vara maskinläsbar.... Wikidata har > 7000 olika externa identifierare som ofta inte ens ger oss ett helpdesk id eller har en publik öppen backlog dvs. det blir kaos... jag skapade 2020 en lista med det som behövs av en extern identifierare för att det skall bli bra med Wikidata se "The Magnus list" skall PIDar leva så kan det inte vara ad hoc varje gång fel uppstår... utan mycket bättre styrning behövs... tycker att 2023 är det status quo vi ser galet med länkröta och inga ekosystem som skapas #112 / #76... det positiva jag ser är ett projekt som skapar TEI av Riksdagstrycket med @mansmeg som projektledare där han driver på och har en öppen publik backlog där snygga mönster som att en PR gör tester att deras data är konsistent men även att Wikidata som dom pekar på "sköter sig"....
Jag har testat att klassificera fel hos Riksarkivet och andra källor vilket fungerar perfekt med Wikidata som kan hantera motstridiga fakta och även ange vilket fakta som är trovärdigt och varför... tror en liknande maskinläsbar tanke är den enda vägen framåt att sitta och manuellt jaga fel skalar inte och sedan bör detta ske mellan trovärdiga källor där Wikidata enbart skall lyssna och konsumera... vi har idag 2023 skapat enormt bra koppling med Nobelpriset.org som hade massa länkröta och teststrängar och har idag
Annat snyggt mönster är detta med ange olika trovärdighet hos påståenden
how to handle differencies compare Wikidata see #35
Intressant modell "what we mean when we refer to collaboration" Fact sheets: your guide to building collaborative capacity där jag ser att börja knyta ihop myndighets Sverige med pid.ar och samma som är det som är Digitalisering
För mig är det självklart att skattefinansierad verksamhet skall finnas i kolumnen med "high reward" jag ser tyvärr mest ordet främja som jag tolkar som vänstra kolumnen = low reward
Hör gärna av dig 0735152802
@andre-jernung jobbar ni med PROV provenance? jag skulle gärna se att Riksarkivet, RAÄ, forskningsprojekt som Riksdagens Corpus och Umeå Universitet Familia hade bättre data och jobbade lika, tycker mig se att i Riksdagens Corpus bygger man mycket av sin kunskap idag på en bok "Tvåkammar-riksdagen 1867–1970" som när vi även skannat in porträttböcker från tidigt 1900 kan se att denna bok klassificerar politiska vildar med en annan terminologi, att inte ha provenance tappar vi en stor del av spårbarheten och trovärdigheten det Wikipedia världen utan källor ofta med all rätt beskylls för men som jag nu ser 2023 års forskningsdata drabbas av....
Känns som en bra tombstone sida skall ha metadata som beskriver proveniens/PROV (Provenance) och PROV är en bra modell för detta....
Re PROV Riksarkivet försöker nu anställa ML kompetens men just denna semantiska kunskap som PROV ser jag behövs för att allt skall flyga se FB inlägg och hur trögt det gör för Riksdagens corpus trots hög ML kunskap
jag ser med oro att RAÄ i ”Nationell strategi för digitalt kulturarv 2023” försöker med samma laguppställning som misslyckats under 10 år och dom har inte ens lyckats skapa bra metadata…. Jag brukar raljera om RAÄs approach är som att Tesla skulle skapa självkörande bilar att ta in 50 000 bilskollärare ;-)
@andre-jernung diskussion om PROV hos Riksdagens Corpus
https:// github.com/welfare-state-analytics/riksdagen-corpus/issues/421
Exempel hur struligt det är att skapa samma som med Gbg Karp
Möte 4 beslöt att rekommendation 4 är tillräckligt konkret för att detta ärende kan stängas.
Möte 4 beslöt att rekommendation 4 är tillräckligt konkret för att detta ärende kan stängas.
@matthiaspalmer vilka volymer pratar ni om att DIGG/myndigheter/kommuner skall skapa PID:ar - ni borde ha en vision som följs upp och gärna att ni skapar en nyttoberäkning enligt DIGGS mall
nu kollar jag på skolor där scb och skolverket har unika id:n för Sveriges skolor och redan nu 2023-12 har dom lyckats flytta runt saker.....
Alla skolor i Sverige skall ha en unik kod som Skolverket och SCB skapat
den finns som Property:P7894 i WIkidata
Hittar nu av "misstag" detta hos SCB som pekar på att saker finns hos Skolverket... så då måste vi föröka fatta hur dom gör det... kostnaden är enorm för gegga utan persistenta identifierare
@andre-jernung interesting how other countries works with research data and knowledge graphs was shown today on CLARIN Café - ParlaMint I feel Sweden needs to step up we see all the time that projects deliver bad data example one project combined seats with Swedish politicians but didn't understand what a persistent identifier is and "invented" something new see issue #450 were another projects cant just consume the data bit needs to clean the data... seems also that there is a culture being afraid explaining for another project that they needs to step up.... result waste of time and money
example https://partyfacts.herokuapp.com - Party Facts links datasets on political parties and provides an online platform about parties and their history as recorded in social science datasets
another example
Colleagues from Finland have been working on a knowledge graph of their politicians:
https://ebooks.iospress.nl/volumearticle/57420
Another example
Parlamint: https://www.clarin.eu/parlamint
LREC-COLING 2024 Workshop: https://www.clarin.eu/ParlaCLARIN-IV
Stay up to date with the cafés: https://www.clarin.eu/content/clarin-cafe
Contact Details
andre.jernung@snd.gu.se
What benefits does the suggestion solve?
I specifikationens Rekommendation UM-10 framgår att (inaktiv) PID som pekar på avpublicerat material enbart skall hanteras med HTTP 410-respons utan ytterligare kontextuell information.
Detta bryter i vår mening med de best practices som utformats internationellt men också med förväntningar på transparens och ansvarsutkrävande hos svensk statlig verksamhet.
Feature suggestion description
För PID som pekar på avpublicerat material existerar en praxis med s.k. tombstone pages som kan innehålla information om varför materialet avpublicerats, vad det eventuellt har ersatts av och vem som är ansvarig för beslut och förvaltning.
Ett exempel på denna praxis kan t.ex. ses hos DataCite:s rekommendationer: https://support.datacite.org/docs/tombstone-pages
Alternative solutions
No response
Additional information
No response