CSV -> KG -> web site? - Githubissues

gjonor commented 2 years ago

CSV-filen med organisationer ser ut som en intressant början.

Tankar kring hur man går vidare för att skapa en kunskapsgraf och utifrån denna en navigerbar presentation av innehållet t.ex. i form av webbsidor?

Vilka metoder och verktyg kan jag använda mig av för att nå målet att presentera information för en allmänhet?

CSV -> Wikibase kanske i första steget? Alternativ? Är det OpenRefine som gäller för den typen av överföringar?

salgo60 commented 2 years ago

@gjonor missade detta enklare pinga mig på Telegram

Japp Open Refine eller lite bökigare Qickstatement 1) antingen installera Open Refine på egen maskin 2) eller köra PAWS / video

salgo60 commented 2 years ago

Jag

Importerade tabellen från PDF:en
Körde Reconciliation med WIkidata
Hämtade organisaionsnummer etc. från WIkidata

Mitt Open Refine projekt

Myndigheter-i-PDF.openrefine.tar.gz

Exporterad som json

salgo60 commented 2 years ago

@gjonor FYI "The eighth Wikidata Working Hour in the series will be batch loading data using OpenRefine to create items for works and editions in Wikidata"

LD4 Wikidata Affinity Group Working Hours
Date and time: Friday, October 14, 2022 at 10:00am PT / 1:00pm ET / 17:00 UTC / 7:00pm CEST Time zone converter

Zoom link to join: https://stanford.zoom.us/j/98925562258?pwd=OWNpaDZhZ2h4bCtvZWtnajZmZmtKdz09

Password: 532871

Event page: October-14_Wikidata_Working_Hour

Installera Open refine

https://github.com/OpenRefine/OpenRefine/releases/tag/3.6.2

Misc

Wikidata 10 år
- tweet WIkidata 10år

* The Current State of Knowledge Graph Adoption oct 27

salgo60 commented 2 years ago

@gjonor tror vi pratade om ELI 19/10 har du en session om status på ELI länk

about ELI - flashig video

gjonor commented 2 years ago

Ja, det låter bekant.

gjonor commented 2 years ago

Jag har skapat en instans på wikibase.cloud och lagt in data från nosad org.csv. Det var en hel del jobb med misstag på vägen som jag gradvis insett efterhand, men det var samtidigt lärorikt tyckte jag. Säkert finns en del att fundera över vad gäller datamodellen, och kan ju vara intressant att se vilka möjligheter som finns att utveckla en sådan successivt, tänker att vissa saker som är egenskaper kanske borde vara objekt i sig m.m.

Jag skapade en fråga som listar presentationerna, och även om det är i ett opolerat format så känns det rätt bra att kunna titta igenom uppgifterna med ämne, titel och föreläsare, och möjligheten att hoppa till respektive avsnitt i videoinspelningarna ger en känsla av bättre överblick. Det kan ju vara en utgångspunkt för att skapa och underhålla ett mer datadrivet innehåll.

När datan är länkad blir det också lättare att gå igenom och upptäcka sådant som ev. inte stämmer eller saknas och korrigera och komplettera uppgifter tycker jag.

https://oswald.wikibase.cloud/wiki/NOSAD-POC

salgo60 commented 2 years ago

Coolt @gjonor

Du har

Wikidata:Tenth_Birthday event calender
- "Kopplingssprint COP 27 | 11 november | 14.00 - 19.00 CET" se även det @SchermanJ skrev Kopplingsprint 2022
"Wikidata vs. custom Wikibases: Community history case studies"
- Please join us next Tuesday for the next installment of the LD4 Wikibase Working Hour!
  - When: Tues. 25 October 2022, 2pm Eastern (time zone converter)
  - Registration: Please fill in this ZOOM Registration Link to register

The October Working Hour will feature one presentation:

Amy Ruskin of Northeastern University Library, will speak on the topic of Wikidata vs. custom Wikibases: Community history case studies.

The Boston Research Center (BRC) is a digital community history and archives lab based in the Northeastern University Library. One of our current projects involves taking an inventory of historical materials related to Boston’s Chinatown, and we have been using Wikibase to store multilingual data about the linked collections, organizations, and people. In this presentation, we will discuss our experience of getting started with a custom Wikibase and give an overview of our progress so far on the Chinatown Collections project.

Amy Ruskin is the Data Engineer in the Digital Scholarship Group in the Northeastern University Library. She has a Master's degree in Information Studies from McGill University and a background in computer science and statistics.

gjonor commented 2 years ago

Tycker det stämmer som de säger i en tidigare videoinspelning att wikibase.cloud verkar rätt långsamt, det kan ta flera minuter för vissa ändringar att slå igenom, kanske också p.g.a. cachning.

salgo60 commented 2 years ago

Tycker det stämmer som de säger i en tidigare videoinspelning att wikibase.cloud verkar rätt långsamt, det kan ta flera minuter för vissa ändringar att slå igenom, kanske också p.g.a. cachning.

@gjonor Japp i kombination med att det är en grafdatabas och inte en transaktionsdatabas... sedan tror jag man inte lyckats sätta upp sökningen... jag snurrade upp en egen Wikibase på min Mac som snurrade lite bättre ... deras test med raspberry känns lite kul dock... personligen tor jag mer på lösningar typ Neo4J som jag testar lite i och med att jag läser böckerna Knowledge Graphs Applied och "Graph Neural Networks in Action"

Galet med frågor på wikibase.cloud om att man inte är en robot om man lägger in uRL:ar

salgo60 commented 2 years ago

När datan är länkad blir det också lättare att gå igenom och upptäcka sådant som ev. inte stämmer eller saknas och korrigera och komplettera uppgifter tycker jag.

@gjonor

Once you go Linked data you never go back

Snyggt att du lägger alla presentatörerna som egna objekt

Kungliga Biblioteketsprojekt LIBRISXL har blivit textsträngar i RDF för att man missa att skapa Persistenta Identifierare för författare som inte är med i Auktoritetsdata, vilket jag tycker är helt fel även om personen inte är 100% identifierad så för att referera personen måste man uppfylla FAIRDATA F1

1) It will be hard to achieve other aspects of FAIR without globally unique and persistent identifiers 1) Globally unique and persistent identifiers remove ambiguity 1) by assigning a unique identifier to every element of metadata and every concept/measurement in your dataset 1) Identifiers can help other people understand exactly what you mean, and they allow computers to interpret your data in a meaningful way 1) Identifiers are essential to the human-machine interoperation 1) In addition, identifiers will help others to properly cite your work when reusing your data.

mer SPARQL sökfrågor

gjonor commented 2 years ago

@gjonor Japp i kombination med att det är en grafdatabas och inte en transaktionsdatabas... sedan tror jag man inte lyckats sätta upp sökningen... jag snurrade upp en egen Wikibase på min Mac som snurrade lite bättre ... deras test med raspberry känns lite kul dock... personligen tor jag mer på lösningar typ Neo4J som jag testar lite i och med att jag läser böckerna Knowledge Graphs Applied och "Graph Neural Networks in Action"

Raspberry Pi låter kul. Verkar böckerna läsvärda? Jag tycker Datomic verkar vara en intressant fakta-baserad databasmotor med transaktionsstöd. Datamodellen är ju baserad på tupletter som påminner om idéerna med Wikidata och RDF. Den används på Arbetsförmedlingen såg jag, men nu verkar de arbeta på att försöka gå över till en öppen källkodsvariant (Datahike) baserad på DataScript som har samma datamodell; t.ex. Compare Datahike and Datomic request & result, Create a Datahike middleware that queries Datomic. Av något skäl verkar Datomic sällan nämnas i jämförelser med graf-databaser. Det kan hända att Neo4J har mer direkt stöd för URI:er och sådant som handlar om länkade data och semantiska webben.

Galet med frågor på wikibase.cloud om att man inte är en robot om man lägger in uRL:ar

Jaha, det kanske gäller för icke verifierade användare, det kanske går att justera rättigheterna så man slipper sådant.

gjonor commented 2 years ago

Snyggt att du lägger alla presentatörerna som egna objekt

Man kanske ska tänka så att alla företeelser man eventuellt vill kunna lägga till ytterligare information om borde vara objekt. Tänkte t.ex. att inspelningar kunde vara objekt i sig ist.f. en egenskap som "video URL" på sessionen. Det kanske finns flera olika videoformat för inspelningen osv. Jag vet inte hur svårt det är att "reifiera" egenskapsvärden i efterhand till objekt i sig som går att referera med egna identiteter.

Kungliga Biblioteketsprojekt LIBRISXL har blivit textsträngar i RDF för att man missa att skapa Persistenta Identifierare för författare som inte är med i Auktoritetsdata, vilket jag tycker är helt fel även om personen inte är 100% identifierad så för att referera personen måste man uppfylla FAIRDATA F1

The principles emphasise machine-actionability (i.e., the capacity of computational systems to find, access, interoperate, and reuse data

Om man själv sitter och försöker sammanställa information t.ex. med OpenRefine borde man ju rätt snabbt inse relevansen av att ha unika identifierare, och hur mycket arbete och tid det går åt annars att försöka koppla poster via textfält som kan ha olika stavningsvarianter och felskrivningar, så det handlar kanske om att man inte har någon klar bild av hur datan kan användas i praktiken.

"Machine-actionability" låter som en koncis sammanfattning av FAIR-principerna.

mer SPARQL sökfrågor

Intressant med exempel på federerade frågor och de möjligheter som finns att återanvända och sammanställa information på nya sätt.

gjonor commented 2 years ago

Man kan ju tänka sig att datan skulle annoteras med sources och qualifiers också, har inte tittat på det.

Nästa steg utöver att snygga till och komplettera datan borde annars vara att försöka presentera någon form av innehåll med datan som underlag, något som är lite mer lättläst än rena frågeresultat och datalistningar. Antingen direkt i wiki-sidor i MediaWiki om det finns inbyggda möjligheter för detta, eller som en separat applikation som genererar innehåll med data från Wikibase.

salgo60 commented 2 years ago

skulle annoteras med sources och qualifiers också, har inte tittat på det.

@jonassodergren vad är status med NOSAD Persistenta identifierare kan vi använda dom för att peka på NOSAD data som källa

Wikibase test oswald: SPARQL sökfrågor

salgo60 commented 2 years ago

@gjonor du skulle kunna sätta upp en reconciliation service för NOSAD data ;-)

https://reconciliation-api.github.io/testbench/#/

Om vi hade ett ekosystem med Öppen Data i Sverige så skulle nog detta vara den vägen vi skulle vandra.... nu har vi fastnat i en återvändsgränd med diskussionen hur "dumt" man kan svara på en fråga om Öppna data eller hur lite man kan leverera

även Riksdagens öppna data borde vara enkelt att göra reconciliation mot,..... och 5 stardata se #68
- finns mycket att lära av Wikidata :smiley: lite coolt att massa foliehattar tar fram gratis verktyg och visar på ett ekosystem rekommenderar lyssna på produktägaren Lydias
  - vision 2019 Glimpse over Wikidata
  - speach 2017 vid 42 min
  - 2017 svarade hon på en fråga jag hade om bättre ekosystem

jonassodergren commented 2 years ago

@jonassodergren vad är status med NOSAD Persistenta identifierare kan vi använda dom för att peka på NOSAD data som källa

Nej. Jag måste sätta upp en enkel lösning som är stabil i några år men som inte tar några direkta resurser i anspråk. POC:en visar att som identifierare räcker en vettig URI-struktur som är stabil. Däremot måste datan servas från en plats som inte kräver ytterligare underhåll från min myndighet. Min hypotes är att överväga data.arbetsformedlingen.se/events som bas för detta. Ska resonera lite med DevOps om detta.

salgo60 commented 2 years ago

Min hypotes är att överväga data.arbetsformedlingen.se/events som bas för detta

@jonassodergren Det jag ser mer och mer är hur snyggt design mönster Wikibase är med en grafdatabas i botten där varje nod får en persistent identifierare som nu @gjonor gjort på oswald.wikibase.cloud / SPARQL

även iden med en dataportal.se med dataset som inte är kopplade till webplatsen känns fel
- Wikipedias olika språkversioner som kopplas ihop med Wikidata -->
  - Kan enkelt hitta
    - alla artiklar om Rishi Sunak samma som WD Q20055561
    - alla bilder med motiv samma som Q20055561
    - antal visningar på websidor med samma som Q20055561

Känns som komplexiteten att skapa liknande infrastruktur för kommuner och myndigheter #76 där alla pratar svenska borde vara enormt enkelt om någon ser fördelarna och vill leverera och detta med Persistenta Identifierare landar....

Tycker FAIRDATA F1 formulerar det bra varför Persistenta Identifierare är så viktigt
- It will be hard to achieve other aspects of FAIR without globally unique and persistent identifiers
- Globally unique and persistent identifiers remove ambiguity by assigning a unique identifier to every element of metadata and every concept/measurement in your dataset
- Identifiers can help other people understand exactly what you mean, and they allow computers to interpret your data in a meaningful way
- Identifiers are essential to the human-machine interoperation
- In addition, identifiers will help others to properly cite your work when reusing your data.

jonassodergren commented 2 years ago

Håller med. Att koppla dedikerad mjukvara till specifik data som delas kräver väldigt mycket medel och tid. Tror personligen att det är det största utmaningen i datadelningen. (Mycket större utmaning än fairdata och persistenta identifierare etc, de frågorna går att lösa). Att skapa exempelvis en instans av neo4 eller annan databas som huserar många dataset borde gå att organisera en förvaltning omkring, men inte att 1000 team/organisationer/myndigheter ska bygga sin egna förvaltningar runt data som inte är avgörande för verksamheten. Du fattar poängen, det måste bli kostnadseffektivt att dela data.

jonassodergren commented 2 years ago

Med det sagt, jag ska lägga upp nosads data med persistenta identifierare. Har även kollat på hur man indexerar datat på ett vettigt sätt, https://lunrjs.com/.

salgo60 commented 2 years ago

det måste bli kostnadseffektivt att dela data.

den största utmaningen är tror jag att göra det intuitivt dvs. att man inte varje vecka behöver diskutera om persistenta identifierare behövs tycker min Anslagstavla test visar att när det är enkelt att skapa en websida med ev. en databas för en kommuns websida så gör dom det MEN det blir SILOS, saknas persistenta identifierare....

men 11 000 aktiva Wikidata användare har inga problem att göra 22 miljoner redigeringar på en månad där allt hänger ihop, allt har persistenta identifierare, allt har språklablar, allt har kopplingar till > 300 wikipedier på olika språk
- intressant att diskussioner finns fortfarande på svenska Wikipedia varför behövs Wikidata så "problemet" skall inte underskattas se Diskussion Värdmyndighet

Jag testar nu lite låg intensivt NEO4J men gillar extremt det jobb @gjonor gjort.... duger wikibase för EU Knowledge Graph (min post om deras KG) så kanske det kan vara en test för NOSAD/DIGG.... tror det är viktigt att få igång detta med persistenta identifierare tycker den diskussionen varit omöjlig att föra tidigare

Annat mönster

att det byggs ett ekosystem med reconciliation services se #79 och vad som finns idag

salgo60 commented 2 years ago

Man kanske ska tänka så att alla företeelser man eventuellt vill kunna lägga till ytterligare information om borde vara objekt.

@gjonor Alla objekt man skall kunna referera tycker F1 sammanfattar det bra och tydligt -->

presentationer/ kanske varje slide/ämnen se #18
....

dpriskorn commented 2 years ago

Apropå att skapa webbsida från en KG så finns det flera förlagor med Wikibase som grund. En är https://github.com/govdirectory/website

salgo60 / NOSAD-POC-Wikidata

CSV -> KG -> web site? #8

Installera Open refine

Misc