salgo60 / DIGG-skuggbacklog

DIGG public backlog
https://upptime.github.io/upptime
MIT License
5 stars 1 forks source link

Use keywords that are shared from known vocabularies #51

Open salgo60 opened 1 year ago

salgo60 commented 1 year ago

DIGGS task id: /topic/364 IA https://github.com/DIGGSweden/DCAT-AP-SE/issues/86

We need keywords that are shared from known vocabularies see FAIRDATA I2 (Meta)data use vocabularies that follow the FAIR principles samma som https://github.com/DIGGSweden/DCAT-AP-SE/issues/86 compare https://github.com/salgo60/SDGMapperSweden/issues/6#issuecomment-1164219768 see https://github.com/salgo60/ProjectOutdoorGyms/issues/120#issuecomment-1242183361

image

image

Page 45 August 2021 doi:10.2830/333095

image image image image image image
salgo60 commented 1 year ago

Exempel hur fel saker görs idag i Dataportalen med textsträngar

Eftersom inte ett gemensamt vokabulär används kan man inte ens enkelt hitta alla som skapat metadata för leverantörsfakturor.... finns säkert fler namn på detta...

salgo60 commented 1 year ago

Borde finnas alla begrepp som staten använder som länkade data och hur dom begreppen är kopplade med SKOS "till known vocabularies" som rekommenderas av andra e.g. EU och Tesaurus EUROVOC

Jmf ELI:is_about

image
salgo60 commented 1 year ago

jmf DCAT-AP-NO har obligatorisk koppling

image

image

image
salgo60 commented 1 year ago

Dagens kaos i dataportalen och #metadatadebt

image

Europeiska Dataportalen

där blandas nu alla språk med textsträngar se DIGGSweden/DCAT-AP-SE-Processor #4

NOSAD

Kul projekt men ingen meatdata, inga ämnesord från kontrollerade vokabulär, inga persistenta identifierare FAIRDATA F1 #12 se test med att skapa metadata av deras websidor i en csv fil och Wikibase OSWALD

salgo60 commented 1 year ago

Ide att ha en "semantisk tíllsyn" länk

image
jonassodergren commented 1 year ago

Offentligkod.se är inte taffligt. @dpriskorn @salgo60 Helt orimlig slutsats. Vi var ju överens om att börja med persistent identifierare för varje programvara i katalogen. Men jag uppdaterar ju katalogen när jag får en minut över här och var. Poängen är ju att datat inte ska vara perfekt från början, utan att vi i forumet tillsammans skapar ett bra dataset via ett öppet arbetssätt (via återkoppling i denna tråd etc). Det är ju inte svårt för mig att stänga ner projektet och återkomma när jag är klar, exempelvis orgnummer är ju enkelt att lägga till.

salgo60 commented 1 year ago

Offentligkod.se är inte taffligt. @dpriskorn @salgo60

Jag tror vi kommer från 2 olika håll... kan jag inte enkelt koppla ihop saker för att saknas tydlighet vilken programvara det syftas på så har vi inte semantisk interoperabilitet....

Nina skrev några rader på Forumet vilka programvaror DIGG använde och det var ett mindre €#%#& att göra en någonsådar koppling til WD

image
salgo60 commented 1 year ago

Exempel sida där det borde tas höjd att peka på "known vocabularies" #51 så att det fungerar på Europa portalen... att skicka runt textsträngar med språkkod funkar inte

image image
jonassodergren commented 1 year ago

Klart jag håller med om att semantisk interoperabilitet är viktigt. Säger bara att det medvetet ska införas stegvis i detta fall. Dock tycker jag sårbarheter ska detekteras utifrån exakta versioner etc utifrån den faktisksa källkoden som finns på Github, så katalogen ska inte användas i det syftet tycker jag. Vad är din rekommendation för nyckelord Magnus? Har inte hunnit gå igenom vokabulären (eu-länken).

dpriskorn commented 1 year ago

@salgo60 kul att du hittat ett bra exempel i Norge som svenska myndigheterna kan ta rygg på. Jag har ofta sett hur lagar och arbetssätt jag känner igen från DK introduceras så småningom även i SE under mina 13 år här.

Dock är det oklart om bristerna som påpekats ens är begripliga för de som rattar spakarna på regeringskansliet eller politikerna som styr. Det får tiden visa.

dpriskorn commented 1 year ago

Man skulle ju kunna fråga de öppet data ansvariga på regeringskansliets infrastrukturdepartement om varför SE avviker från resten av världen när det gäller delning av data utan semantisk interoperabilitet i dataportalen. Dock vill jag påpeka att jag även hittat textsträngar och liknande brister som du påpekar i datamängder om vandringsleder från New York och Pennsylvania

salgo60 commented 1 year ago

Jag hittade Norge på EDPs presentationer om teknisk öppenhet (se EDP "Understanding open data: technical openness" video/slides) vilket är nog så viktigt men inte handlar om licens som brukar kallas politisk öppenhet ( se EDP "Understanding open data: legal openess" Friday 18 November 2022 at 10.00-11.30 CET video/slides)

image
salgo60 commented 1 year ago

@dpriskorn här har du JSON på det som landar i Euopean Data Portal

Kollar man på nyckelord som används så borde nog skolungarna lära sig cs = tjeckiska ;-)

SELECT ?key (count(?s) AS ?count) WHERE {?s a dcat:Dataset . ?s dcat:keyword ?key} GROUP BY ?key order by desc (?count)



<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203661493-b697cdba-6ba0-48be-96b2-670dd2ca8633.png">

<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203661838-e47d5048-20b6-462f-8009-f799da33d14c.png">

<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662010-84af93ce-0915-42c2-9242-28303e61f013.png">

<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662117-da24a3d2-fcae-49a1-8b23-33fb4346b362.png">

<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662159-9543eb45-afde-4bb5-8ea0-77e6f2b5d5cf.png">

<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662224-1d29beb6-2c5f-4e5e-8de5-ab04edddef3a.png">

# Kunskapsgraf hos EDP
Jag hade fräckheten på ett EDP event 17 nov 2021 att säga att när Google hade presenterat hur dom jobbar med Kunskapsgrafer så 

> springer inte EDP åt fel håll som skickar runt massa text strängar med en språktag

EDP svar var [lite mummel vid 54:20](https://www.youtube.com/watch?t=3263&v=COBykM5d_cg&feature=youtu.be) och jag uppfatta att problemet dom såg var kompetensen ute i länderna dvs. för Sverige skulle det vara DIGGs förmåga med KG #70 

[Googles presentation 22:30](https://youtu.be/COBykM5d_cg?t=1348) med Knowledge graph reconciliation....
* både EDP och svenska portalen saknar detta steget och saknar KG är min känsla...
  * det som skickas in visas för slutanvändarna... kan vara att textsträngar översätts men det blir gissar jag samma haveri som [Europeana och konstnärer jag visade på 2019](http://minancestry.blogspot.com/2020/03/carl-larsson-who-is-that-sadly.html) - vet inte om EDPs datakvaliten diskuteras någonstans.... har inte hört någon på den svenska portalen som använder det datat....

<img width="896" alt="image" src="https://user-images.githubusercontent.com/14206509/203662970-3a3c9192-d48b-4735-9905-2b02048e6724.png">

## Kunskapsgraf hos NOSAD
Se [#77-18](https://github.com/salgo60/DiggUptime/issues/77#issuecomment-1336125092) verkar helt saknas en drivkraft att våga ta steget med bra metadata utan DIGG fokuserar på forum regler... [Vaffor då då -  varför gör dom på detta vis](https://www.youtube.com/watch?v=f397zrwXkok)

[<img width="952" alt="image" src="https://user-images.githubusercontent.com/14206509/205436224-79421b59-6660-4136-a24f-eb617a8c4d0f.png">](https://www.youtube.com/watch?v=f397zrwXkok)
salgo60 commented 1 year ago

Vad är din rekommendation för nyckelord Magnus?

@jonassodergren hade hoppats du hade varit på metaverse snacket idag....

Lösa tankar 1) mervärdet kommer om saker styrs upp - idag saknas det aktivt städande, verkar som alla laddar upp det dom vill och ombeds läsa manualen... 2) min bakgrund säger att kontrollerade vokabulär är det man skall ha och att även DIGG skulle skapa svenska vokabulär som länkas med EUs.... 3) kollar man på @dpriskorn så har han skapat magiska verktyg som märker upp vetenskapliga dokument i Wikidata med ämnesord som bestäms av den som kör verktyget.... bra eller dålig?

Min vaga tro är att mästaren på findability Google kör sin kunskapsgraf som dom kopplar ihop allt med inklusive metadata om dataset sedan är deras sökmotor smart och söker i delar av kunskapsgrafen efter säkert mycket hemliga algoritmer....

Så mitt svar kopplingar skall man ha men kanske enklast är att ta kända vokabulär och göra som EU säger ovan

dpriskorn commented 1 year ago

@dpriskorn här har du JSON på det som landar i Euopean Data Portal

Mm. Intressant att de kör RDF öht. Det hade jag inte väntat mig. Vem rattar RDF-obtologin hos SKR? Här beskriver de sig själva med textstäng endast. image image Ingen reconsiliering verkar ha gjorts. Det är en RDF silo verkar det som 🤷‍♂️

dpriskorn commented 1 year ago

Undrar om SKR är med i molnet. image

salgo60 commented 1 year ago

Intressant att de kör RDF

@dpriskorn det är entryscape så det är nog csv in och geggig rdf ut ingen semantiker har anställts....

Senast jag kontakta SKR om kommuninfo och öppen data var deras data bara en test utan licens kan vara samma data som nu seglar runt utan att någon tar ägarskap för datat och bryr sig,,.,,

salgo60 commented 1 year ago

Feedback SKR om deras data 2020 dvs. Inget ägande mer trams...

image

salgo60 commented 1 year ago

GITHUB #86 Länkade nyckelord och begrepp har nu varit öppen i 19 månader jag försöker få en status om DIGG gör något

image

Hur tafligt Europeiska dataportalen fungerar idag --> att ingen reagerar betyder att det är fel kompetenser i projekt som Nationell Dataverkstad #30 "Styra upp att bra metadata skickas med DCAT-AP till EDP" / DIGG --> #100

image

salgo60 commented 1 year ago

Se GIST Koommundiarie mha chatgpt.md

salgo60 commented 1 month ago

Detta borde vara del av DIGGs kvalitetsrapport #878 878