Riksarkivet / dataplattform

Dokumentation och exempel för Riksarkivets API- och datatjänster
8 stars 0 forks source link

Vore bra med lite exempel så man kommer igång snabbare... #1

Closed salgo60 closed 1 year ago

salgo60 commented 2 years ago

Önskan 1 Vore bra med mer Python/Notebook exempel för Arkiv

Skriver nu en notebook som hämtar Stockholms stads skolregister och sedan kollar agent id hos Riksarkivet....

Fråga 2: finns enkelt sätt att få ut alla arkiv om skolor med metadata? se GITHUB issue 1 att ha Svenska skolor över tid som metadataset i Bildhistoria

Exempel data Stockholms Stads skolregister hos Stadsarkivet har för

image

känns logiskt att det borde gå att söka ut allt data som kommer från kommuners olika skolregister hos er....

I wikidata har vi idag samma struktur som Skolverket/SCB(om jag fattat rätt) dvs

image

Önskan 3 vore smidigt om även Riksarkivet hade koppling till SCB/Skolverkets Skolenhetsregister

Wikidata

salgo60 commented 2 years ago
image
nilsw-ra commented 2 years ago

Det var flera frågor på en gång, jag ska försöka besvara dem i separata kommentarer för att underlätta eventuella uppföljningsfrågor.

  1. Fler exempel

Det är avsikten att fylla på med fler exempel. Kom gärna med förslag på vad de skall behandla för att underlätta förståelse för och användning av APIerna.

OAI-PMH är ett gammalt standardprotokoll för ett specifikt syfte (masshämtning av metadata till portaler och aggregatorer). Vi använder det fär att leverera data till Archives Portal Europe och Nuohtti för närvarande. I och med att det är en tjänst som vi har sedan tidigare är det motiverat att göra den publikt tillgänglig och dokumenterad, även om protokollet i sig kan ses som något gammalmodigt. Det finns idag inga indikationer om att OAI-PMH skall uppdateras eller ersättas med något som kan leverera API-svar i JSON-format.

Riksarkivet planerar att ta fram ett sök-API med funktonalitet som motsvarar i första hand fritextsökningen i söktjänsten. Tanken för närvarande är att sökresultatet kommer att presenteras i JSON-format, med länkar till enskilda poster i form av derefererbara RDF-URIer så att utvecklare som använder APIet kan välja att hämta data i JSON-LD eller RDF/XML.

nilsw-ra commented 2 years ago
  1. Söka skolarkiv

OAI-PMH har ingen sökfunktion och vi har ingen ämnesbaserad IIIF collection för just skolarkiv (det saknas i allmänhet scannat material). Vi kan ta fram en IIIF collection för detta ändamål ändå, för att ge en maskinläsbar lista, med innehåll i stil med

{ "id": "https://lbiiif.riksarkivet.se/collection/arkiv/Bmy5hW5gbwF376eC4B2jT1", "type": "Collection", "label": { "sv": [ "Enskede skola" ] }, "summary": { "sv": [ "Referenskod: SE/SSA/2456", "Arkivinstitution: Stockholms stadsarkiv", "Datering: 1991-2013" ] } }

Referenskoden kan sedan nyttjas för att hämta metadata om arkivet med OAI-PMH. Detta är dock inte generellt möjligt för närvarande, då kommunala arkiv i NAD inte är tillgängliga via OAI-PMH. Arbete pågår med att uppdatera villkoren för data i NAD så att vi kan ge åtkomst till de arkiv som dataleverantören vill göra publika.

När det gäller sökning i söktjänsten, och i förlängningen i ett sök-API, så finns det inga strukturerade dataelement som anger att ett arkiv är just ett skolarkiv. Så tyvärr är i nuläget enda möjligheten fritextsökning på "skola", med facetturval Typ: Arkiv och Arkivbildare / upphov: Kommunal myndighet.

salgo60 commented 2 years ago

Tack min inkompetens gäller XML 😳 så där behöver jag stöd gissar att vi är flera ;-) plus som jag antyder hur kan man dra nytta av NAD för att hitta Sveriges skolor över tid vilket idag inte verkar finnas samlat som ett dataset

Ett sätt att dra nytta av GITHUB är att ni sätter ett eller flera topics på era Repositories så kan andra som skapa lösningar med ert API och sätta samma GITHUB topics

nilsw-ra commented 2 years ago

Vad gäller att tolka OAI-PMH-XML så finns ett litet exempel som jag gjorde häromdagen, men inte hunnit dokumentera än, för att ta reda på persistent id för en arkivenhet utifrån referenskoden.

Jag ska se till att ta fram ett mer omfattande exempel!

nilsw-ra commented 2 years ago
  1. Koppling till SCB:s skolenhetsregister

Kopplingar till andra system generellt är ett intressant område, som tyvärr mestadels saknas i våra data. I fallet skolarkiv borde arkiven egentligen ha en koppling till en organisations-auktoritet i vår databas, som in sin tur borde ha referenser till SCB och eventuella kommunala register.

Båda dessa är antagligen rätt enkla att utveckla, men det är betydligt mer krävande att komplettera befintliga data med dessa kopplingar då det kräver en manuell insats. Som alltid är det en fråga om prioriteringar, jag kan ta med önskemålet, men inte göra några utfästelser om eller när det kan bli verklighet.

nilsw-ra commented 2 years ago

Ett sätt att dra nytta av GITHUB är att ni sätter ett eller flera topics på era Repositories så kan andra som skapa lösningar med ert API och sätta samma GITHUB topics

Tack för tipset! Jag har uppdaterat repots About med ett par topics.

salgo60 commented 2 years ago

Spännande just om skolor skickade vi en fråga till Johannes länk där verkar det vara lite High Chaparall så alla tips mottages

"Hej Magnus!

Ja det är ett ambitiöst projekt! Bra bakgrund till alla olika slags skolformer ges också i SCBs statistiska sammanställningar, 
se bifogat. En komplett översikt över läroverk och motsvarande från säg 1850-talet och framåt vore inte omöjligt - 
de är inte så många, och finns angivna efter stad i exempelvis SCBs serie P, se bif. fil.  
Folkskolorna (och underkategorier som småskolor, mindre folkskolor etc) är väl lite knepigare: 
de organiserades av Sveriges omkring 2,300 församlingar fram till 1900-talets början, och har ju 
funnits så väldigt många, och gick inte sällan under olika namn, så där torde just församlingsnamnet 
vara en rimlig ingång  om man vill bringa ordning i dem.

/Johannes "

NAD id

För skolor där vi nu startar från 0 vore det enormt snyggt att ha NAD som en bas för vårt data dvs. att Skola identifierad i WD skall ha NAD koppling.... --> att ni förhoppningvis kan utnyttja artiklar och annan data som finns för ex. flickskolor - artikel / Wiki Kategori:Flickskolor_i_Sverige

Båda dessa är antagligen rätt enkla att utveckla, men det är betydligt mer krävande att komplettera befintliga data med dessa kopplingar då det kräver en manuell insats.

Japp och där kanske WD och Bildhistoria och andra aktörer kan bidraga... WD med sin öppenhet är ju perfekt för detta problemet är att hitta en bra struktur och eldsjälar.... Bildhistoria bygger på SPA som jag haft enorm nytta med då jag förbättra data på Sveriges Riksdagsmän se issues/38 som används av forskare som gör om Riksdagstrycket till TEI format och har WD Qnummer som identifierare för en riksdagsman...

salgo60 commented 2 years ago

När det gäller sökning i söktjänsten, och i förlängningen i ett sök-API, så finns det inga strukturerade dataelement som anger att ett arkiv är just ett skolarkiv. Så tyvärr är i nuläget enda möjligheten fritextsökning på "skola", med facetturval Typ: Arkiv och Arkivbildare / upphov: Kommunal myndighet.

enormt snyggt :rocket: kanske en yngre hjärna med riktiga Python kunskaper kan göra stordåd av detta cc: @miroli

Kanske @Abbe98 skulle kunna trolla fram skolbyggnader hur bebyggelseregistret... tweet

salgo60 commented 2 years ago

OT: Man borde ha ett ämne på repositoriet att det är ett Riksarkiv... se video tanke

image
nilsw-ra commented 2 years ago

OT: Man borde ha ett ämne på repositoriet att det är ett Riksarkiv...

Bra tanke, har lagt till det!

salgo60 commented 2 years ago

Pandas/Notebooks exempel

OT2 såg att pandas sedan 1.3.0 har XML stöd så snart kanske undertecknad kan massera ert data ;-) kan vara ett exempel på bra exempel att ha i er dokumentation jag brukar lyfta SPARQL till pandas dataframe och sedan jobba vidare... med XML verkar det som man skall ha koll på olika namespace som vore bra om det framgick i exempel hur man sätter upp det...

nilsw-ra commented 2 years ago

Nu finns ett lite större exempel på hur man kan läsa ut data från EAD-XML i OAI-PMH-svaren. https://github.com/Riksarkivet/dataplattform/blob/main/docs/examples/oai-pmh/read_archive.py

salgo60 commented 2 years ago

Tackar frågan hur gör vi detta enklare att hitta för alla andra... kanske DIGG @MariaDahlgren eller Jonas Södergren @jonassodergren har tankar.... borde finnas en typ kulturhub på GITHUB där alla "drakarna" finns 😄

Med digitaliseringen så måste vi börja knyta ihop data med data.... gissar att vi hittar massa "skit" som är soppat under mattan när man kopplar ihop saker som "skolor i Sverige" men det är ju dumt att alla gör samma misstag...

salgo60 commented 1 year ago

Gärna länka till exemplen dvs. er leverabel (eng. deliverables) för denna issue