Closed salgo60 closed 1 year ago
Det var flera frågor på en gång, jag ska försöka besvara dem i separata kommentarer för att underlätta eventuella uppföljningsfrågor.
Det är avsikten att fylla på med fler exempel. Kom gärna med förslag på vad de skall behandla för att underlätta förståelse för och användning av APIerna.
OAI-PMH är ett gammalt standardprotokoll för ett specifikt syfte (masshämtning av metadata till portaler och aggregatorer). Vi använder det fär att leverera data till Archives Portal Europe och Nuohtti för närvarande. I och med att det är en tjänst som vi har sedan tidigare är det motiverat att göra den publikt tillgänglig och dokumenterad, även om protokollet i sig kan ses som något gammalmodigt. Det finns idag inga indikationer om att OAI-PMH skall uppdateras eller ersättas med något som kan leverera API-svar i JSON-format.
Riksarkivet planerar att ta fram ett sök-API med funktonalitet som motsvarar i första hand fritextsökningen i söktjänsten. Tanken för närvarande är att sökresultatet kommer att presenteras i JSON-format, med länkar till enskilda poster i form av derefererbara RDF-URIer så att utvecklare som använder APIet kan välja att hämta data i JSON-LD eller RDF/XML.
OAI-PMH har ingen sökfunktion och vi har ingen ämnesbaserad IIIF collection för just skolarkiv (det saknas i allmänhet scannat material). Vi kan ta fram en IIIF collection för detta ändamål ändå, för att ge en maskinläsbar lista, med innehåll i stil med
{ "id": "https://lbiiif.riksarkivet.se/collection/arkiv/Bmy5hW5gbwF376eC4B2jT1", "type": "Collection", "label": { "sv": [ "Enskede skola" ] }, "summary": { "sv": [ "Referenskod: SE/SSA/2456", "Arkivinstitution: Stockholms stadsarkiv", "Datering: 1991-2013" ] } }
Referenskoden kan sedan nyttjas för att hämta metadata om arkivet med OAI-PMH. Detta är dock inte generellt möjligt för närvarande, då kommunala arkiv i NAD inte är tillgängliga via OAI-PMH. Arbete pågår med att uppdatera villkoren för data i NAD så att vi kan ge åtkomst till de arkiv som dataleverantören vill göra publika.
När det gäller sökning i söktjänsten, och i förlängningen i ett sök-API, så finns det inga strukturerade dataelement som anger att ett arkiv är just ett skolarkiv. Så tyvärr är i nuläget enda möjligheten fritextsökning på "skola", med facetturval Typ: Arkiv och Arkivbildare / upphov: Kommunal myndighet.
Tack min inkompetens gäller XML 😳 så där behöver jag stöd gissar att vi är flera ;-) plus som jag antyder hur kan man dra nytta av NAD för att hitta Sveriges skolor över tid vilket idag inte verkar finnas samlat som ett dataset
Ett sätt att dra nytta av GITHUB är att ni sätter ett eller flera topics på era Repositories så kan andra som skapa lösningar med ert API och sätta samma GITHUB topics
Vad gäller att tolka OAI-PMH-XML så finns ett litet exempel som jag gjorde häromdagen, men inte hunnit dokumentera än, för att ta reda på persistent id för en arkivenhet utifrån referenskoden.
Jag ska se till att ta fram ett mer omfattande exempel!
Kopplingar till andra system generellt är ett intressant område, som tyvärr mestadels saknas i våra data. I fallet skolarkiv borde arkiven egentligen ha en koppling till en organisations-auktoritet i vår databas, som in sin tur borde ha referenser till SCB och eventuella kommunala register.
Båda dessa är antagligen rätt enkla att utveckla, men det är betydligt mer krävande att komplettera befintliga data med dessa kopplingar då det kräver en manuell insats. Som alltid är det en fråga om prioriteringar, jag kan ta med önskemålet, men inte göra några utfästelser om eller när det kan bli verklighet.
Ett sätt att dra nytta av GITHUB är att ni sätter ett eller flera topics på era Repositories så kan andra som skapa lösningar med ert API och sätta samma GITHUB topics
Tack för tipset! Jag har uppdaterat repots About med ett par topics.
Spännande just om skolor skickade vi en fråga till Johannes länk där verkar det vara lite High Chaparall så alla tips mottages
"Hej Magnus!
Ja det är ett ambitiöst projekt! Bra bakgrund till alla olika slags skolformer ges också i SCBs statistiska sammanställningar,
se bifogat. En komplett översikt över läroverk och motsvarande från säg 1850-talet och framåt vore inte omöjligt -
de är inte så många, och finns angivna efter stad i exempelvis SCBs serie P, se bif. fil.
Folkskolorna (och underkategorier som småskolor, mindre folkskolor etc) är väl lite knepigare:
de organiserades av Sveriges omkring 2,300 församlingar fram till 1900-talets början, och har ju
funnits så väldigt många, och gick inte sällan under olika namn, så där torde just församlingsnamnet
vara en rimlig ingång om man vill bringa ordning i dem.
/Johannes "
NAD id
vi har i WD både gamla och nya och är väldigt intresserad att komplettera det lilla vi har idag och kanske kan ni dra nytta av WD med alla dess fel och brister... jag har länge föreslagit att ni som Arkiv Digital hämtar kartdata från WD för kyrkböckerna...
För skolor där vi nu startar från 0 vore det enormt snyggt att ha NAD som en bas för vårt data dvs. att Skola identifierad i WD skall ha NAD koppling.... --> att ni förhoppningvis kan utnyttja artiklar och annan data som finns för ex. flickskolor - artikel / Wiki Kategori:Flickskolor_i_Sverige
Båda dessa är antagligen rätt enkla att utveckla, men det är betydligt mer krävande att komplettera befintliga data med dessa kopplingar då det kräver en manuell insats.
Japp och där kanske WD och Bildhistoria och andra aktörer kan bidraga... WD med sin öppenhet är ju perfekt för detta problemet är att hitta en bra struktur och eldsjälar.... Bildhistoria bygger på SPA som jag haft enorm nytta med då jag förbättra data på Sveriges Riksdagsmän se issues/38 som används av forskare som gör om Riksdagstrycket till TEI format och har WD Qnummer som identifierare för en riksdagsman...
När det gäller sökning i söktjänsten, och i förlängningen i ett sök-API, så finns det inga strukturerade dataelement som anger att ett arkiv är just ett skolarkiv. Så tyvärr är i nuläget enda möjligheten fritextsökning på "skola", med facetturval Typ: Arkiv och Arkivbildare / upphov: Kommunal myndighet.
enormt snyggt :rocket: kanske en yngre hjärna med riktiga Python kunskaper kan göra stordåd av detta cc: @miroli
Kanske @Abbe98 skulle kunna trolla fram skolbyggnader hur bebyggelseregistret... tweet
OT: Man borde ha ett ämne på repositoriet att det är ett Riksarkiv... se video tanke
i videon "hoppar jag runt" med plug-in Entity Explosion som rekommenderas
SPARQL Nationella arkiv enl. WD vore coolt om alla dela kod på GITHUB
OT: Man borde ha ett ämne på repositoriet att det är ett Riksarkiv...
Bra tanke, har lagt till det!
Pandas/Notebooks exempel
OT2 såg att pandas sedan 1.3.0 har XML stöd så snart kanske undertecknad kan massera ert data ;-) kan vara ett exempel på bra exempel att ha i er dokumentation jag brukar lyfta SPARQL till pandas dataframe och sedan jobba vidare... med XML verkar det som man skall ha koll på olika namespace som vore bra om det framgick i exempel hur man sätter upp det...
Nu finns ett lite större exempel på hur man kan läsa ut data från EAD-XML i OAI-PMH-svaren. https://github.com/Riksarkivet/dataplattform/blob/main/docs/examples/oai-pmh/read_archive.py
Tackar frågan hur gör vi detta enklare att hitta för alla andra... kanske DIGG @MariaDahlgren eller Jonas Södergren @jonassodergren har tankar.... borde finnas en typ kulturhub på GITHUB där alla "drakarna" finns 😄
Med digitaliseringen så måste vi börja knyta ihop data med data.... gissar att vi hittar massa "skit" som är soppat under mattan när man kopplar ihop saker som "skolor i Sverige" men det är ju dumt att alla gör samma misstag...
Gärna länka till exemplen dvs. er leverabel (eng. deliverables) för denna issue
Önskan 1 Vore bra med mer Python/Notebook exempel för Arkiv
Skriver nu en notebook som hämtar Stockholms stads skolregister och sedan kollar agent id hos Riksarkivet....
Fråga 2: finns enkelt sätt att få ut alla arkiv om skolor med metadata? se GITHUB issue 1 att ha Svenska skolor över tid som metadataset i Bildhistoria
Exempel data Stockholms Stads skolregister hos Stadsarkivet har för
känns logiskt att det borde gå att söka ut allt data som kommer från kommuners olika skolregister hos er....
I wikidata har vi idag samma struktur som Skolverket/SCB(om jag fattat rätt) dvs
Önskan 3 vore smidigt om även Riksarkivet hade koppling till SCB/Skolverkets Skolenhetsregister
Wikidata