Inaktiva PID / avpublicerat material

andre-jernung commented 10 months ago

Contact Details

andre.jernung@snd.gu.se

What benefits does the suggestion solve?

I specifikationens Rekommendation UM-10 framgår att (inaktiv) PID som pekar på avpublicerat material enbart skall hanteras med HTTP 410-respons utan ytterligare kontextuell information.

Detta bryter i vår mening med de best practices som utformats internationellt men också med förväntningar på transparens och ansvarsutkrävande hos svensk statlig verksamhet.

Feature suggestion description

För PID som pekar på avpublicerat material existerar en praxis med s.k. tombstone pages som kan innehålla information om varför materialet avpublicerats, vad det eventuellt har ersatts av och vem som är ansvarig för beslut och förvaltning.

Ett exempel på denna praxis kan t.ex. ses hos DataCite:s rekommendationer: https://support.datacite.org/docs/tombstone-pages

Alternative solutions

No response

Additional information

No response

salgo60 commented 10 months ago

Håller med RAÄ håller på med httpkoder och gissar varför saker försvunnit det känns inte 2023

Exempel med RAÄs bebyggelseregistet där vi hittade flera 1000 döda länkar och RAÄ själva började gissa att det är copyright osv sv... RAÄ är en myndighet som lekt med detta i > 10 år och har ingen vettig helpdesk där man får ett helpdesknummer och en sida man kan följa ärendet --> gör datat blir mer eller mindre oanvändbart för andra än Wiki entusiaster...

jag skulle vilja säga ha en kunskapsgraf där man kan följa livscykeln, tycker det även skall vara tydligt hur en PID föds där kan man titta på EEA hur dom beskriver kriteriet och vem man kontaktar om man vill ha en ny

data element bathingWaterIdentifier 99263

Methodology for obtaining data


Must be a valid bathing water identifier in 
the "WFDProtectedArea" registry ( https://dd.eionet.europa.eu/vocabulary/wise/WFDPro... ).

New bathing water identifiers 
must be reported under 
"Bathing Water Directive - 
Identification of Bathing Waters - 2019" ( https://rod.eionet.europa.eu/obligations/788 )

Contact bwd.helpdesk@eionet.europa.eu for support if 
you need to report additional 
bathing water identifiers.

Exempel udda ändring som RAÄ gjorde för att vara "tydligare"

PR

man lade in en statisk "hittepå text"
- inga tankar att enkelt kunna felrapportera saker dvs. exempel på saker som inte är best practice #4

matthiaspalmer commented 10 months ago

UM-10 säger bara att man ska svara med status koden 410. Det är alltså inte förbjudet att skicka med en message body i t.ex. html som motsvarar en tombstone. HTTP specen tillåter detta: https://www.rfc-editor.org/rfc/rfc9110#name-core-semantics.

matthiaspalmer commented 10 months ago

Eventuellt kan man också använda link rel=sunset då den: "Identifies a resource that provides information about the context's retirement policy."

Den definieras här: https://www.rfc-editor.org/rfc/rfc8594.html

salgo60 commented 10 months ago

UM-10 säger bara att man ska svara med status koden 410.

Det är alltså inte förbjudet att skicka med en message body i t.ex. html som motsvarar en tombstone.

HTTP specen tillåter detta: https://www.rfc-editor.org/rfc/rfc9110#name-core-semantics.

Men som Niklas på KB sa i den video intervju Mathias gjorde med honom för 9 år sedan "städa vid källan inte ha ett reningsverk vid varje handfat" det bör vara tydligt att för konsumenten av en PID varför, blir det bara en rekommendation att förklara så blir det samma antipattern vi ser hela tiden med öppna data att det levereras massa textsträngar som jag som konsument skall städa upp och tolka... varje sten vi lyfter på visar ett kaos och avsaknad av informationsdesign...

DIGG använder ordet främja allt för ofta istället för att ställa krav och säga skall eran organisation leverera data på högsta nivå så uppfyll följande krav #10

Skall vi gå från dagens data silos till där kommuner har sina beslut, kommentarer utredningar med Persistenta Identifierare så behövs saker som ovan vara enormt tydliga att det förväntar vi oss av data leverantören.

Bilden ovan ett beslut om nytt Naturreservat som 2023 Naturvårdsverket vet om och verkar inte kunna leta fram själva utan ber mig prata med Tyresö kommun.... Här borde Tyresö kommun fått en PID av Naturvårdsverket och Naturvårdsverket peka tillbaka på beslutet i sina register... att inte vara tydlig vad som förväntas av olika aktörer blir inte bra... idag verkar det mesta vara ett kaos...

Mitt RAÄ exempel ovan så la vi ned 10 tals timmar att förstå problemet som efter 1 år kommenterades av RAÄ att nu var det fixat dvs. det var nog en bugg hos RAÄ....

Mer tydlighet hur man uppträder för att vara bäst i klassen Tack

salgo60 commented 10 months ago

Maintenance hell - utan tombstone pages #38

3775 fel wikidata -> RAÄ - enorma kostnader att underhålla ett dåligt ekosystem för persistenta identifierare

Min Issue #4 "att skapa Best practices" känns mer än viktigt om detta skall bli något... plus att vi får inte ramla in i den vanliga DIGG fällan att det bara blir en pdf spec utan att ett ekosystem byggs kring detta med att hantera livscykeln med persistenta identifierare från att

någon önskar att en PID skapas
tills den landar på Riksarkivets hyllor

jag skapade 2021 "The Magnus list" som är en lägsta nivå för att jobba ihop

Jag testade 2023-09-08 att köra igenom 173 000 länkar Wikidata -> RAÄ där RAÄ inte har följt Best Practices for Tombstone Pages som rekommenderas ovan utan endast ger dig http-koden plus en statisk text --> att städaktiviteten att förstå vad som sker blir konsumentens problem = "ett reningsverk vid varje handfat" --> Maintenance hell

Exempel på fel
- Status: 404 http://kulturarvsdata.se/LSH/agents/12250 Wikidata: http://www.wikidata.org/entity/Q28967664 - Edgar Haasum
  - Status: 410 http://kulturarvsdata.se/raa/fmi/10089300480001 Wikidata: http://www.wikidata.org/entity/Q29272284 - Fjäle
  - Status: 410 http://kulturarvsdata.se/raa/fmi/10091001720002 Wikidata: http://www.wikidata.org/entity/Q29302321 - Eksta 172:2
  - Status 410 https://kulturarvsdata.se/raa/bbr/21300000015124 Wikidata: http://www.wikidata.org/entity/Q30317303 Palaestra et Odeum
    - verkar vara samma som WD Q10615322 och byggnadId=21400000357152
      - dvs borde mergas i WD och hos RAÄ?
      - helt omöjligt att jobba "ihop" om inte publika backlogs finns och tydliga "tombstone" sidor finns
  - Status 410 http://kulturarvsdata.se/raa/bbr/21300000019904 Wikidata: http://www.wikidata.org/entity/Q30334076 Rengsjö gravkapell
  - Status 404 http://kulturarvsdata.se/raa/bbra/21300000003027 Wikidata: http://www.wikidata.org/entity/Q10661140 - Sandby kyrka
  - Status: 500 http://kulturarvsdata.se/LSH/objects/32632 Wikidata: http://www.wikidata.org/entity/Q17021187 - Bibliotekarien

Rekommenderat utseende på tombstone page

This page conforms to best practices for tombstone pages.

1) It contains a full bibliographic citation of the item, so users can confirm they have located the correct item. 1) It includes the DOI displayed as a URL. 1) It gives a reason for the unavailability of the item.

RAÄs ekosystem med httpkoder och en statisk text på svenska - Problem 1: följer inte rekommendationen på tombstone pages

Exempel fel från RAÄ

Exempel på fel
- Status: 404 http://kulturarvsdata.se/LSH/agents/12250

Status: 410 http://kulturarvsdata.se/raa/fmi/10089300480001

Status: 410 http://kulturarvsdata.se/raa/fmi/10091001720002

Number records in Wikidata: 173028
OK: 169250 not ok 3775
Ended: 2023-09-08 14:04:25.417392

Status samma test 2021-03-25 med samma dataset fel funna 4605

På Wikipedia diskuterades detta fel från 27 september 2020

inget hände så jag skrev ihop lite kod som anropa WD och skickade frågan till RAÄ 2021-03-25 länk 4605 fel funna av 160 531 testade poster --> 2.8 % av posterna har länkröta -> Gissar att RAÄ inte kollar sina länkar internt utan saker bara ruttnar

Problem 2: RAÄ saknar bra mönster för att hitta länkröta i sina system - jmf Humlab Riksdagen Corpus

RAÄ saknar publika backlogs och enkelhet att logga fel med helpdeskid --> maintenance hell för konsumenten

Att kontinuerligt kolla av sina PID:ar och datakällor dom kopplar till som Wikidata gör Humlab Riksdagens Corpus något som alla måste göra...Jag sliter en del med Svenska Riksdagsmän och Wikidata där ett forskningsprojekt Riksdagens corpus valt att ange samma som Wikidata eftersom Wikipedia är den organisation som har bäst kunskap över svenska Riksdagsmän över tid i Sverige (borde vara Riksarkivet och Sveriges Riksdag eller Kungliga Biblioteket...)

Vid en PR på GITHUB kör detta projekt Riksdagens corpus en check att deras data är konsistent och att det data i Wikidata dom kopplat till är i ordning exempel då dom hittar fel Wikidata och direkt från denna pull #258 pingar in mig (Bra kandidat till #4 att ha ett ekosystem där man kan pinga alla intressenter, tror även alla aktörer skall implementera observer pattern där jag kan begära att bli notifierad då en PID ändras)

Problem 3: RAÄ saknar bra mönster när organisationer lämnar dom - dom verkar bara ta bort posten och skicka 404

I körningen ovan finns ett bra mönster att man i PID:en kan se agenten exempel /LSH/agents/12250 --> LSH

1) jag vet för jag strulat en del med detta data att LSH var "Livrustkammaren och Skoklosters slott med Stiftelsen Hallwylska museet" 1) Resultatet av denna gegga Wikidata har nu 1902 "fel i wikidata" som har denna agent 1) min gissning är att dessa finns nu hos SHMM se artikel 2017-06-01 "SHMM och LSH går samman" och 2023 efter 6 år har dessa poster 1) troligen blivit flyttade till SHMM 2) I wikidata har SHMM lagt till en ny WD egenskap med Wikimedia Sveriges hjälp se egenskapsdiskussion för Id i Statens historiska museers samlingar som blev Property:P9495 3) Wikimedia Sverige användare AliciaFagerving(WMSE) och LinneaKarlberg har sedan lagt in Property:P9495 > 30 000 ggr i Wikidata
4) Någon på RAÄ tänker inte persistenta identifierare och att externa aktörer fortfarande pekar på dom med det gamla id:et --> att man tar bort det och ger oss konsumenter "Felkod: 404 (Not Found) Service: Ksamsök."

Flera fel gjorda lesson learned är att skapa detta kaos är inte bara att ett fel görs man brukar prata om "a trail of shit"...

1) RAÄ borde informerat var den nya platsen för identifieraren är inte bara skicka 404 2) RAÄ borde ha implementerat observer pattern så aktörer som Wikidata kan fånga upp detta innan vi får problem 1) den som lägger till nya egenskapen i Wikidata borde ta bort den gamla eller i Wikidatas fall ange skäl Q122746164 både på svenska och engelska se ex. Q28967664#P1260 - svenska / engelska 1) se #4 "Best practice: Support depreciated and reason for deprecated rank"

Observer pattern

En snygg implementering av Observer pattern vore att även i löst kopplade system kan saker som citation graphs skapas....

dvs. att en SFS som Riksdagen har skulle kunna ha koll på vilka myndighetsförfattningar som refererar den, att utredningar som refereras kan am med ett klick kunna se vilka som refererar till den se #100 #85 status idag är att ex. Esamverkan publicerar dokument som refererar myndigheter som upphört och ligger i en kartong hos Riksarkivet dvs. det saknas helt vettig dokumenthantering vilket jag ser som en brist i vår demokrati och att Sveriges Riksdag inte har 5-star data

Fixat av RAÄ 6 september 2021 - tid 1 år

Svar RAÄ fixat 2021 sep 7

F.k. : fr.o.m. igår 2021-09-06 ska 10 537 BeBR-poster som var tillfälligt borttagna ur K-samsök (svarade med 410) vara tillbaka i indexet. De beständiga kulturarvsdata.se-URI:erna svarar igen antingen med 200 + RDF/XML / JSON-LD, eller 302 + ompekning till källan (posten hos Bebyggelseregistret) beroende på anropets Accept-headers

då hittade vi 4605 fel
ingen visste vad som skett på 1 år
RAÄ lade in en anonym kommentar 2021-sep på en Wikipedia sida att det var fixat....

Behovet av best practices #4 är stort för att styra icke digitala organisationer att fungera i ett ekosystem med persistenta identfierare

salgo60 commented 10 months ago

Problem 4: Hur skall problem med Persistenta identifierare kommuniceras/felanmälas när flera organisationer är inblandade... idag saknas en infrastruktur för att jobba ihop

jag testade twitter och får snabbt svar av Linnea men RAÄ är tysta
- jag har även försökt få kontakt med @matthiaspalmer för att få en status på detta projekt

UPDATE 2023-10-03:

en länk verkar funka ;-) där gamla och nya pekar på samma post!!!
Wikidata Q6218798 har
- Ksamsök-URI kulturarvsdata.se/LSH/agents/30314
- Id i Statens historiska museers samlingar : person/7010327A-E819-4D36-9505-9B26B32BB177

salgo60 commented 10 months ago

Problem5: Skall vara enkelt att på landningssidan av en Persistent identifierare se

versioner av objektet
öppna helpdeskärenden relaterade till pid:en
enkelt kunna skapa ett nytt helpdesk ärende från landningssidan och kunna prenumerera på uppdateringar...
att kunna prenumerera på ändringar på objektet se observer pattern

Pratade nyss med Linnea (som snabbt svarat på twitter) och det verkar vara helt fel i RAÄs del - allt skall levereras dit och det ligger i Linneas backlog att ladda upp fler objekt dvs. min killgissning ovan att Wikidata inte skall peka på kulturnav är nog fel

gissar att deras organisationsändring som gjorde att dom skapar en wikidata egenskap kommer att leda till agent namnet ovan skall bytas hur hanteras det? Behövs det tankar om detta i denna spec...?

@carwash vad är RAÄs take på detta? 1) går det att logga ett fel hos er och få ett helpdesk nummer som jag kan följa status på, om ja hur 1) kan jag skicka in 3775 fel(httpkod != 400) och ni rapportera tillbaka det på ett vettigt sätt? 1) trevligast vore det att se Notebook kod exempel hur jag som konsument kan stämma av status med ert data och om det finns helpdesk ärenden kopplade till PID:en med fel 1) att det finns ett API där man kan direkt skapa avvikelser jmf dom PR Riksdagens corpus gör som skapar avvikelser och det blir enkelt att pinga in t.ex. mig se ovan "Problem 2: RAÄ saknar bra mönster för att hitta länkröta i sina system - jmf Humlab Riksdagen Corpus" 1) finns det beskrivet vad som skall göras med LSH objekten? Är det redan ett helpdesk ärende? 1) finns dialogen med Statens historiska museer och Linnea dokumenterad vad som skall göras eller finns det dokumenterat vad ni gjort och av vem och varför dvs. har ni spårbarhet 1) hur sker återkopplingen till Statens historiska museer känns väldigt udda att deras Intendent digital förmedling blir överraskad vad som fungerar och inte fungerar... finns det en förklaring vad som saknas i eran dialog med dom och planer att jobba mer proffsigt ihop 1) jag blir lite mörkrädd att det "bara" pratas httpkoder i detta rep och inte att skapa fungerande ekosystem tycker misslyckandet med öppna data där vi bara ser datasilos 2023 och inte länkade data borde få DIGG att tänka om att dagens sätt att "främja" måste ersättas med styra upp... 1) RAÄ har varit inblandad i Europeana där massa museer skickat ned > 50 miljoner bilder och använder textsträngar --> Wikipedia inte länkar Europeana för att kvaliten är så dålig dvs. flera 100 miljoner Euro bortkastat och ett ekosystem som inte fungerar... 1) min hobby analys av RAÄs ekosystem med museerna #33 icke lärande organisationer 1) när uppenbara fel i dialog och utförande hittas hur jobbar RAÄ då? Gör ni en root cause analysis och loggar detta om ja var kan vi se detta och kan andra myndigheter följa hur ni förbättrar er organisation eller sker allt ad hoc dvs. level 1 i CMM Maturity model? det vi på utsidan ser är icke lärande organisationer se försök att ha dialog med muserna under 1 år om Riksdagsmän och ange persistenta identifierare och samma som #42 liknande dialog med projekt #359 Riksdagens Corpus

   ![image](https://github.com/diggsweden/persistent-identifiers-investigation/assets/14206509/be2b5f35-3813-497d-948b-38d47bb1a3c4)

1) finns planer att bygga om denna del så det blir bättre för oss konsumenter? Om jag fattar rätt så utreds nästa version K-samsök 2.0 hur långt har ni kommit var kan man följa detta er video 2023-jul är enormt ytlig och säger ingenting mer än Europeanas video från 2012 ;-) finns de krav ni skall uppfylla beskrivna.... finns projektet på GITHUB.... 1) har ni börjat att speca och peka på de krav som detta projekt skall uppfylla ? Som jag sa tidigare så vore det snyggt att ha detta projekts krav som Öppna data med Persistenta identifierare som RAÄ skulle kunna peka på och kunna ha sina egna krav som länkade data.....

salgo60 commented 9 months ago

Vet inte om ni är mogna för detta men PID livscykeln borde styras upp så att det skalar även mellan olika länders PID:ar och då tänker jag på mer avancerat än http:koder jag tror det skall till bra API:er, SPARQL federation "The Magnus list" det jag ser ovan av RAÄs httpkod baserade "lösning" är att det lätt blir en datasilo med dålig data... men det kanske är en början.... blir ofta lite ghosting då man pekar på problem och vill ha dialog ( se skuggbackloggar)...

Wikidata ser behovet att olika intressenter pratar ihop sig så dom har skapat ett event nu 2023 och jag försöker få med forskare på Riksdagen corpus som nu bygger stora delar av sitt ekosystem på Wikidata på gott och ont se länk där jag tycker dom borde jobba med egna kunskapsgrafer och jobba mer internationellt som ParlaMINT

WIkidatas utmaning idag är löst kopplade system med olika mogenhetsgrad och en community som bygger på frivillighet... se lista med externa Wikidata egenskaper som idag > 8200 / enbart svenska > 100 tyvärr så skapas inte så många svenska egenskaper lite pga av att initiativ som detta om att standardisera PID hanteringen inte landat och det kaos vi har med massa datasilos utan publika backlogs...

Wikidata:Events/Data_Modelling_Days_2023

Hur snyggt Nobelprize.org och Wikidata jobbar ihop med 5-star open data

Exempel hur Persistenta identifierare kopplar ihop två löst kopplade system...

dagens pristagare har id 1027 samma som Wikidata Q86970
video

salgo60 commented 8 months ago

Bra exempel som jag tweetade om att RAÄ måste följa "The Magnus List" om man skall kunna hantera livscykeln med persistena identifierare och samspel med dom som "konsumerar" deras datat

Status 410 https://kulturarvsdata.se/raa/bbr/21300000015124 Wikidata: http://www.wikidata.org/entity/Q30317303 Palaestra et Odeum
- verkar vara samma som WD Q10615322 och byggnadId=21400000357152
  - dvs borde mergas i WD och hos RAÄ?
    - helt omöjligt att jobba "ihop" om inte publika backlogs finns och tydliga "tombstone" sidor finns
      - intressant här att kanske borde SKOS användas då RAÄ har anlaggningId=21300000015126 som består av
        
        byggnadId=21400000691592
        
        byggnadId=21400000357056
        
        byggnadId=21400000357151
        
        byggnadId=21400000357152

salgo60 commented 8 months ago

A Persistent Identifier (PID) policy for the European Open Science Cloud (EOSC)

andre-jernung commented 8 months ago

SND har funderat på ett grundläggande informationspaket som hör samman med en tombstonesida för avpublicerat material. Vi har baserat det på Schema.org även om det finns många andra tänkbara lösningar. Vi har inte kunnat hitta kontrollerade termer som exakt mappar mot svensk förvaltning av handlingar, men EU:s OP Core har en lämplig status baserad på ADMS (https://www.w3.org/TR/vocab-adms/) där Completed/Deprecated/UnderDevelopment/Withdrawn finns tillgängliga och Withdrawn mappar mot avpublicerade handlingar.

På detta sätt går det att garantera information om hur en handling har hanterats. Syftet är också att underlätta myndighetsutövningen och efterlevnaden av t.ex. kraven i RA-FS 2009:1 och annan relevant lagstiftning som berör hanteringen av allmänna handlingar i elektronisk form.

Obligatoriska

Koncept	Schema	Typ
Handling toppnivå	schema.org::CreativeWork	self
Handlingens namn	schema.org::CreativeWork::name	Text
Handlingens beständiga identifierare	@id och schema.org::CreativeWork::identifier	URL
Ansvarig myndighet	schema.org::CreativeWork::publisher	schema.org::Organization
Avpublicerad?	schema.org::CreativeWork::creativeWorkStatus	schema.org::DefinedTerm::identifier = http://publications.europa.eu/resource/authority/distribution-status/WITHDRAWN
Avpubliceringsstatus toppnivå	schema.org::UpdateAction	schema.org::Action
Handling som avpublicerats	schema.org::UpdateAction::object	self
Ansvarig för avpublicering (chef/funktion)	schema.org::UpdateAction::agent	schema.org::Person eller schema.org::Organization
Tidpunkt för förändring av handlingsstatus	schema.org::UpdateAction::startTime	schema.org::DateTime
Anledning till avpublicering (fritext)	schema.org::UpdateAction::description	Text
Aktuell handlingsstatus (avpublicerad)	schema.org::UpdateAction::result	schema.org::DefinedTerm::identifier = http://publications.europa.eu/resource/authority/distribution-status/WITHDRAWN

Valfria (ett urval av många möjliga)

Koncept	Schema	Typ
Annan identifikator t.ex. diarienr	schema.org::CreativeWork::identifier	Text eller schema.org::PropertyValue
Version av handling	schema.org::CreativeWork::version	Number eller Text
Beskrivning av handling (fritext)	schema.org::CreativeWork::description	Text
Ansvarig tjänsteman	schema.org::CreativeWork:: accountablePerson	schema.org::Person

Motsvarande hantering med HTTP 300?	Koncept	Schema
Om handling också har ersatts av något annat som inte bör ha en tvingande redirect, t.ex. en konceptuell motsvarighet	schema.org::ReplaceAction	schema.org::Action
Tidpunkt för ersättningsstatus	schema.org::ReplaceAction::startTime	schema.org::DateTime
Handling som ersatts	schema.org::ReplaceAction::replacee	self
Handling den har ersatts av	schema.org::ReplaceAction::replacer	schema.org::CreativeWork
Handling den har ersatts av, beständig identifierare	@id och schema.org::ReplaceAction::replacer::identifier	URL

Noterar också att @salgo60 har uppmärksammat den vikt som EOSC lägger på utförlig maskinläsbar tombstoneinformation. Detta kommer sannolikt bli standard för statlig datadistribution i EU, så det är en god idé att få med en grundläggande implementation redan nu även om den inte är perfekt.

salgo60 commented 8 months ago

@andre-jernung tack för att du lyfter betydelsen/möjligheter med persistenta identifierares och som jag ser det den enda vägen framåt idag ser jag datasilos och massa länkröta... tror saker skall kopplas mer till Fair data och saker som FAIR Data Maturity Model DOI: 10.15497/rda00045 pdf och The FAIR Cookbook for FAIR doers

Jag jobbade med internationella banktransaktioner som konsult på SEB och för att hantera hur 2 banker kommunicerar avvikelser och problem definierades Swift jag tror för att detta med persistenta identifierare skall bli bra så behövs något liknande... och att anledningen skall vara maskinläsbar.... Wikidata har > 7000 olika externa identifierare som ofta inte ens ger oss ett helpdesk id eller har en publik öppen backlog dvs. det blir kaos... jag skapade 2020 en lista med det som behövs av en extern identifierare för att det skall bli bra med Wikidata se "The Magnus list" skall PIDar leva så kan det inte vara ad hoc varje gång fel uppstår... utan mycket bättre styrning behövs... tycker att 2023 är det status quo vi ser galet med länkröta och inga ekosystem som skapas #112 / #76... det positiva jag ser är ett projekt som skapar TEI av Riksdagstrycket med @mansmeg som projektledare där han driver på och har en öppen publik backlog där snygga mönster som att en PR gör tester att deras data är konsistent men även att Wikidata som dom pekar på "sköter sig"....

Exempel på fel

jag testade statens historiska museums data i WD och där hade dom avpublicerat på grund av osäkerhet med GPRS men det fixades med vändande post men borde vara en status kod som skickas så Wikidata kan automatisk "ta bort" länken till det är fixat...

jag tycker myndigheter/kommuner websidor skall kunna nås över hela sin livstid och då stödjas av persistenta idientifierare idag är det sämre än kalles korvkiosk exempel
- Kommuners anslagstavlor fick användas på web:en då det kom en kommunllag 20??? --> att istället för att skapa ett ekosystem sätter sig 290 webdesigners och skapar egna lösningar ???? och tittar vi så po 2 år har 50 kommuner lyckats flytta på sina sidor --> inte ens anslagstavlorn hittar vi det vi vill se är att varje enskilt dokument skall ha TEI som ovan och det skall anges med persistenta identifieraere att nu tar vi ett beslut om utegym = Wikidata Qssss
- sidor med utegym är idag massa websudor utan identifierare och typ 9 kommuner har yckats ladda upp ett dataset till portalen men som jag säger på #222 detta mönster med att INTE jobba data drivet blir bara ett kaos med kaos som visar sig att dagens webadminstratör inte kan jålla ihop och skalar inte alls
- sidor med badplatser
- här "tvingar" EU på att staten skall rapportera in dom bad med flest användare EU bad -_>
  - HaV bygger en ny applikation där dm INTE tar ansvar för datat och kommunerna skall mata in datat
  - DoS. ??? följs inte och en badplats beskrivs då pöola av Lantmäteriet, kommunen, Hav, EU
    - ingen verkar jobba ihop utan nya datasilos skapas där det idag sker en koppling mellan Hav --> EU men i Sverige så klarar inte Lantmäteriet, DIGG skapa ett ekosysystem utan det blir massa datasiulos med massa länkröta ochganska värdelös data

skall detta bli något måste vi prata metadataroundtripping

Jag har testat att klassificera fel hos Riksarkivet och andra källor vilket fungerar perfekt med Wikidata som kan hantera motstridiga fakta och även ange vilket fakta som är trovärdigt och varför... tror en liknande maskinläsbar tanke är den enda vägen framåt att sitta och manuellt jaga fel skalar inte och sedan bör detta ske mellan trovärdiga källor där Wikidata enbart skall lyssna och konsumera... vi har idag 2023 skapat enormt bra koppling med Nobelpriset.org som hade massa länkröta och teststrängar och har idag

persistenta unika id:n
anger "samma som" Wikidata Q170342 dvs. när Svante Pääbo får priset 2022 skapas 1011 och anges samma som Wikidata Qnummer
Wikidata har Nobelpriset.org som extern identifierare Property:P8024

Annat snyggt mönster är detta med ange olika trovärdighet hos påståenden

how to handle differencies compare Wikidata see #35

book "Tvåkammar-riksdagen 1867–1970" (Q110346241) - SPARQL sökning
Svenskt biografiskt lexikon (Q379406) - SPARQL search
Svenskt kvinnobiografiskt lexikon (Q50395049) - SPARQL search
Sveriges dödbok (Q10686079) - SPARQL search

Vad menar vi då vi säger att vi jobbar ihop

Intressant modell "what we mean when we refer to collaboration" Fact sheets: your guide to building collaborative capacity där jag ser att börja knyta ihop myndighets Sverige med pid.ar och samma som är det som är Digitalisering

För mig är det självklart att skattefinansierad verksamhet skall finnas i kolumnen med "high reward" jag ser tyvärr mest ordet främja som jag tolkar som vänstra kolumnen = low reward

vilka "skills" dom anser behövs

Hör gärna av dig 0735152802

salgo60 commented 8 months ago

@andre-jernung jobbar ni med PROV provenance? jag skulle gärna se att Riksarkivet, RAÄ, forskningsprojekt som Riksdagens Corpus och Umeå Universitet Familia hade bättre data och jobbade lika, tycker mig se att i Riksdagens Corpus bygger man mycket av sin kunskap idag på en bok "Tvåkammar-riksdagen 1867–1970" som när vi även skannat in porträttböcker från tidigt 1900 kan se att denna bok klassificerar politiska vildar med en annan terminologi, att inte ha provenance tappar vi en stor del av spårbarheten och trovärdigheten det Wikipedia världen utan källor ofta med all rätt beskylls för men som jag nu ser 2023 års forskningsdata drabbas av....

Känns som en bra tombstone sida skall ha metadata som beskriver proveniens/PROV (Provenance) och PROV är en bra modell för detta....

chatGPT om HTTPkoder versus PROV

Exempel bilder och metadata Wikicommons SPA

Jag skapade några exempel på hur Wikicommon SPA ger tillgång till metadata via API:er men tyvärr stöds inte PROV

dock har Svenskt Porträttarkiv bra API funktioner att hämta ut vem som gjort ändring och vilkem ändring...

salgo60 commented 8 months ago

Re PROV Riksarkivet försöker nu anställa ML kompetens men just denna semantiska kunskap som PROV ser jag behövs för att allt skall flyga se FB inlägg och hur trögt det gör för Riksdagens corpus trots hög ML kunskap

jag ser med oro att RAÄ i ”Nationell strategi för digitalt kulturarv 2023” försöker med samma laguppställning som misslyckats under 10 år och dom har inte ens lyckats skapa bra metadata…. Jag brukar raljera om RAÄs approach är som att Tesla skulle skapa självkörande bilar att ta in 50 000 bilskollärare ;-)

salgo60 commented 7 months ago

@andre-jernung diskussion om PROV hos Riksdagens Corpus

https:// github.com/welfare-state-analytics/riksdagen-corpus/issues/421

Exempel hur struligt det är att skapa samma som med Gbg Karp

matthiaspalmer commented 7 months ago

Möte 4 beslöt att rekommendation 4 är tillräckligt konkret för att detta ärende kan stängas.

salgo60 commented 7 months ago

Möte 4 beslöt att rekommendation 4 är tillräckligt konkret för att detta ärende kan stängas.

@matthiaspalmer vilka volymer pratar ni om att DIGG/myndigheter/kommuner skall skapa PID:ar - ni borde ha en vision som följs upp och gärna att ni skapar en nyttoberäkning enligt DIGGS mall

nu kollar jag på skolor där scb och skolverket har unika id:n för Sveriges skolor och redan nu 2023-12 har dom lyckats flytta runt saker.....
- skall alla som identifierar en skola sitta och läsa massa länkade dokument för att hitta vart saker tar vägen så är inte detta seriöst det måste vara maskinläsbara beskrivningar så saker kan uppdateras automatiskt... http koder duger inte om datat skall användas...

Geggan med SCB och skolenhetskoder

Alla skolor i Sverige skall ha en unik kod som Skolverket och SCB skapat
den finns som Property:P7894 i WIkidata
SPARQL

Update

Hittar nu av "misstag" detta hos SCB som pekar på att saker finns hos Skolverket... så då måste vi föröka fatta hur dom gör det... kostnaden är enorm för gegga utan persistenta identifierare

salgo60 commented 5 months ago

@andre-jernung interesting how other countries works with research data and knowledge graphs was shown today on CLARIN Café - ParlaMint I feel Sweden needs to step up we see all the time that projects deliver bad data example one project combined seats with Swedish politicians but didn't understand what a persistent identifier is and "invented" something new see issue #450 were another projects cant just consume the data bit needs to clean the data... seems also that there is a culture being afraid explaining for another project that they needs to step up.... result waste of time and money

example https://partyfacts.herokuapp.com - Party Facts links datasets on political parties and provides an online platform about parties and their history as recorded in social science datasets

another example

Colleagues from Finland have been working on a knowledge graph of their politicians:
 https://ebooks.iospress.nl/volumearticle/57420

Another example

Ideology and Power Identification in Parliamentary Debates 2024

Parlamint: https://www.clarin.eu/parlamint

LREC-COLING 2024 Workshop: https://www.clarin.eu/ParlaCLARIN-IV

Stay up to date with the cafés: https://www.clarin.eu/content/clarin-cafe

diggsweden / persistent-identifiers-investigation