salgo60 / NOSAD-POC-Wikidata

POC Nosad koppling WD
https://salgo60.github.io/NOSAD/
3 stars 0 forks source link

CSV -> KG -> web site? #8

Open gjonor opened 1 year ago

gjonor commented 1 year ago

CSV-filen med organisationer ser ut som en intressant början.

Tankar kring hur man går vidare för att skapa en kunskapsgraf och utifrån denna en navigerbar presentation av innehållet t.ex. i form av webbsidor?

Vilka metoder och verktyg kan jag använda mig av för att nå målet att presentera information för en allmänhet?

CSV -> Wikibase kanske i första steget? Alternativ? Är det OpenRefine som gäller för den typen av överföringar?

salgo60 commented 1 year ago

@gjonor missade detta enklare pinga mig på Telegram

Japp Open Refine eller lite bökigare Qickstatement 1) antingen installera Open Refine på egen maskin 2) eller köra PAWS / video

salgo60 commented 1 year ago

Jag

  1. Importerade tabellen från PDF:en
  2. Körde Reconciliation med WIkidata
  3. Hämtade organisaionsnummer etc. från WIkidata

Mitt Open Refine projekt

Myndigheter-i-PDF.openrefine.tar.gz

salgo60 commented 1 year ago

@gjonor FYI "The eighth Wikidata Working Hour in the series will be batch loading data using OpenRefine to create items for works and editions in Wikidata"

Zoom link to join: https://stanford.zoom.us/j/98925562258?pwd=OWNpaDZhZ2h4bCtvZWtnajZmZmtKdz09

Password: 532871

Event page: October-14_Wikidata_Working_Hour

Installera Open refine

Misc

image * The Current State of Knowledge Graph Adoption oct 27

salgo60 commented 1 year ago

@gjonor tror vi pratade om ELI 19/10 har du en session om status på ELI länk

image

gjonor commented 1 year ago

Ja, det låter bekant.

gjonor commented 1 year ago

Jag har skapat en instans på wikibase.cloud och lagt in data från nosad org.csv. Det var en hel del jobb med misstag på vägen som jag gradvis insett efterhand, men det var samtidigt lärorikt tyckte jag. Säkert finns en del att fundera över vad gäller datamodellen, och kan ju vara intressant att se vilka möjligheter som finns att utveckla en sådan successivt, tänker att vissa saker som är egenskaper kanske borde vara objekt i sig m.m.

Jag skapade en fråga som listar presentationerna, och även om det är i ett opolerat format så känns det rätt bra att kunna titta igenom uppgifterna med ämne, titel och föreläsare, och möjligheten att hoppa till respektive avsnitt i videoinspelningarna ger en känsla av bättre överblick. Det kan ju vara en utgångspunkt för att skapa och underhålla ett mer datadrivet innehåll.

När datan är länkad blir det också lättare att gå igenom och upptäcka sådant som ev. inte stämmer eller saknas och korrigera och komplettera uppgifter tycker jag.

https://oswald.wikibase.cloud/wiki/NOSAD-POC

salgo60 commented 1 year ago

Coolt @gjonor

Du har

The October Working Hour will feature one presentation:

Amy Ruskin of Northeastern University Library, will speak on the topic of Wikidata vs. custom Wikibases: Community history case studies.

The Boston Research Center (BRC) is a digital community history and archives lab based in the Northeastern University Library. One of our current projects involves taking an inventory of historical materials related to Boston’s Chinatown, and we have been using Wikibase to store multilingual data about the linked collections, organizations, and people. In this presentation, we will discuss our experience of getting started with a custom Wikibase and give an overview of our progress so far on the Chinatown Collections project.

Amy Ruskin is the Data Engineer in the Digital Scholarship Group in the Northeastern University Library. She has a Master's degree in Information Studies from McGill University and a background in computer science and statistics.

gjonor commented 1 year ago

Tycker det stämmer som de säger i en tidigare videoinspelning att wikibase.cloud verkar rätt långsamt, det kan ta flera minuter för vissa ändringar att slå igenom, kanske också p.g.a. cachning.

salgo60 commented 1 year ago

Tycker det stämmer som de säger i en tidigare videoinspelning att wikibase.cloud verkar rätt långsamt, det kan ta flera minuter för vissa ändringar att slå igenom, kanske också p.g.a. cachning.

@gjonor Japp i kombination med att det är en grafdatabas och inte en transaktionsdatabas... sedan tror jag man inte lyckats sätta upp sökningen... jag snurrade upp en egen Wikibase på min Mac som snurrade lite bättre ... deras test med raspberry känns lite kul dock... personligen tor jag mer på lösningar typ Neo4J som jag testar lite i och med att jag läser böckerna Knowledge Graphs Applied och "Graph Neural Networks in Action"

image image
salgo60 commented 1 year ago

När datan är länkad blir det också lättare att gå igenom och upptäcka sådant som ev. inte stämmer eller saknas och korrigera och komplettera uppgifter tycker jag.

@gjonor

Once you go Linked data you never go back

Snyggt att du lägger alla presentatörerna som egna objekt

image

Kungliga Biblioteketsprojekt LIBRISXL har blivit textsträngar i RDF för att man missa att skapa Persistenta Identifierare för författare som inte är med i Auktoritetsdata, vilket jag tycker är helt fel även om personen inte är 100% identifierad så för att referera personen måste man uppfylla FAIRDATA F1

image

1) It will be hard to achieve other aspects of FAIR without globally unique and persistent identifiers 1) Globally unique and persistent identifiers remove ambiguity 1) by assigning a unique identifier to every element of metadata and every concept/measurement in your dataset 1) Identifiers can help other people understand exactly what you mean, and they allow computers to interpret your data in a meaningful way 1) Identifiers are essential to the human-machine interoperation 1) In addition, identifiers will help others to properly cite your work when reusing your data.

gjonor commented 1 year ago

@gjonor Japp i kombination med att det är en grafdatabas och inte en transaktionsdatabas... sedan tror jag man inte lyckats sätta upp sökningen... jag snurrade upp en egen Wikibase på min Mac som snurrade lite bättre ... deras test med raspberry känns lite kul dock... personligen tor jag mer på lösningar typ Neo4J som jag testar lite i och med att jag läser böckerna Knowledge Graphs Applied och "Graph Neural Networks in Action"

Raspberry Pi låter kul. Verkar böckerna läsvärda? Jag tycker Datomic verkar vara en intressant fakta-baserad databasmotor med transaktionsstöd. Datamodellen är ju baserad på tupletter som påminner om idéerna med Wikidata och RDF. Den används på Arbetsförmedlingen såg jag, men nu verkar de arbeta på att försöka gå över till en öppen källkodsvariant (Datahike) baserad på DataScript som har samma datamodell; t.ex. Compare Datahike and Datomic request & result, Create a Datahike middleware that queries Datomic. Av något skäl verkar Datomic sällan nämnas i jämförelser med graf-databaser. Det kan hända att Neo4J har mer direkt stöd för URI:er och sådant som handlar om länkade data och semantiska webben.

  • Galet med frågor på wikibase.cloud om att man inte är en robot om man lägger in uRL:ar

Jaha, det kanske gäller för icke verifierade användare, det kanske går att justera rättigheterna så man slipper sådant.

gjonor commented 1 year ago

Snyggt att du lägger alla presentatörerna som egna objekt

Man kanske ska tänka så att alla företeelser man eventuellt vill kunna lägga till ytterligare information om borde vara objekt. Tänkte t.ex. att inspelningar kunde vara objekt i sig ist.f. en egenskap som "video URL" på sessionen. Det kanske finns flera olika videoformat för inspelningen osv. Jag vet inte hur svårt det är att "reifiera" egenskapsvärden i efterhand till objekt i sig som går att referera med egna identiteter.

Kungliga Biblioteketsprojekt LIBRISXL har blivit textsträngar i RDF för att man missa att skapa Persistenta Identifierare för författare som inte är med i Auktoritetsdata, vilket jag tycker är helt fel även om personen inte är 100% identifierad så för att referera personen måste man uppfylla FAIRDATA F1

The principles emphasise machine-actionability (i.e., the capacity of computational systems to find, access, interoperate, and reuse data

Om man själv sitter och försöker sammanställa information t.ex. med OpenRefine borde man ju rätt snabbt inse relevansen av att ha unika identifierare, och hur mycket arbete och tid det går åt annars att försöka koppla poster via textfält som kan ha olika stavningsvarianter och felskrivningar, så det handlar kanske om att man inte har någon klar bild av hur datan kan användas i praktiken.

"Machine-actionability" låter som en koncis sammanfattning av FAIR-principerna.

Intressant med exempel på federerade frågor och de möjligheter som finns att återanvända och sammanställa information på nya sätt.

gjonor commented 1 year ago

Man kan ju tänka sig att datan skulle annoteras med sources och qualifiers också, har inte tittat på det.

Nästa steg utöver att snygga till och komplettera datan borde annars vara att försöka presentera någon form av innehåll med datan som underlag, något som är lite mer lättläst än rena frågeresultat och datalistningar. Antingen direkt i wiki-sidor i MediaWiki om det finns inbyggda möjligheter för detta, eller som en separat applikation som genererar innehåll med data från Wikibase.

salgo60 commented 1 year ago

skulle annoteras med sources och qualifiers också, har inte tittat på det.

@jonassodergren vad är status med NOSAD Persistenta identifierare kan vi använda dom för att peka på NOSAD data som källa

salgo60 commented 1 year ago

@gjonor du skulle kunna sätta upp en reconciliation service för NOSAD data ;-)

Om vi hade ett ekosystem med Öppen Data i Sverige så skulle nog detta vara den vägen vi skulle vandra.... nu har vi fastnat i en återvändsgränd med diskussionen hur "dumt" man kan svara på en fråga om Öppna data eller hur lite man kan leverera

jonassodergren commented 1 year ago

@jonassodergren vad är status med NOSAD Persistenta identifierare kan vi använda dom för att peka på NOSAD data som källa

Nej. Jag måste sätta upp en enkel lösning som är stabil i några år men som inte tar några direkta resurser i anspråk. POC:en visar att som identifierare räcker en vettig URI-struktur som är stabil. Däremot måste datan servas från en plats som inte kräver ytterligare underhåll från min myndighet. Min hypotes är att överväga data.arbetsformedlingen.se/events som bas för detta. Ska resonera lite med DevOps om detta.

salgo60 commented 1 year ago

Min hypotes är att överväga data.arbetsformedlingen.se/events som bas för detta

@jonassodergren Det jag ser mer och mer är hur snyggt design mönster Wikibase är med en grafdatabas i botten där varje nod får en persistent identifierare som nu @gjonor gjort på oswald.wikibase.cloud / SPARQL

Känns som komplexiteten att skapa liknande infrastruktur för kommuner och myndigheter #76 där alla pratar svenska borde vara enormt enkelt om någon ser fördelarna och vill leverera och detta med Persistenta Identifierare landar....

jonassodergren commented 1 year ago

Håller med. Att koppla dedikerad mjukvara till specifik data som delas kräver väldigt mycket medel och tid. Tror personligen att det är det största utmaningen i datadelningen. (Mycket större utmaning än fairdata och persistenta identifierare etc, de frågorna går att lösa). Att skapa exempelvis en instans av neo4 eller annan databas som huserar många dataset borde gå att organisera en förvaltning omkring, men inte att 1000 team/organisationer/myndigheter ska bygga sin egna förvaltningar runt data som inte är avgörande för verksamheten. Du fattar poängen, det måste bli kostnadseffektivt att dela data.

jonassodergren commented 1 year ago

Med det sagt, jag ska lägga upp nosads data med persistenta identifierare. Har även kollat på hur man indexerar datat på ett vettigt sätt, https://lunrjs.com/.

salgo60 commented 1 year ago

det måste bli kostnadseffektivt att dela data.

den största utmaningen är tror jag att göra det intuitivt dvs. att man inte varje vecka behöver diskutera om persistenta identifierare behövs tycker min Anslagstavla test visar att när det är enkelt att skapa en websida med ev. en databas för en kommuns websida så gör dom det MEN det blir SILOS, saknas persistenta identifierare....

image

Jag testar nu lite låg intensivt NEO4J men gillar extremt det jobb @gjonor gjort.... duger wikibase för EU Knowledge Graph (min post om deras KG) så kanske det kan vara en test för NOSAD/DIGG.... tror det är viktigt att få igång detta med persistenta identifierare tycker den diskussionen varit omöjlig att föra tidigare

Annat mönster

image

salgo60 commented 1 year ago

Man kanske ska tänka så att alla företeelser man eventuellt vill kunna lägga till ytterligare information om borde vara objekt.

@gjonor Alla objekt man skall kunna referera tycker F1 sammanfattar det bra och tydligt -->

dpriskorn commented 1 year ago

Apropå att skapa webbsida från en KG så finns det flera förlagor med Wikibase som grund. En är https://github.com/govdirectory/website