Open salgo60 opened 2 years ago
Exempel hur fel saker görs idag i Dataportalen med textsträngar
Eftersom inte ett gemensamt vokabulär används kan man inte ens enkelt hitta alla som skapat metadata för leverantörsfakturor.... finns säkert fler namn på detta...
Borde finnas alla begrepp som staten använder som länkade data och hur dom begreppen är kopplade med SKOS "till known vocabularies" som rekommenderas av andra e.g. EU och Tesaurus EUROVOC
Jmf ELI:is_about
jmf DCAT-AP-NO har obligatorisk koppling
där blandas nu alla språk med textsträngar se DIGGSweden/DCAT-AP-SE-Processor #4
Kul projekt men ingen meatdata, inga ämnesord från kontrollerade vokabulär, inga persistenta identifierare FAIRDATA F1 #12 se test med att skapa metadata av deras websidor i en csv fil och Wikibase OSWALD
Ide att ha en "semantisk tíllsyn" länk
Offentligkod.se är inte taffligt. @dpriskorn @salgo60 Helt orimlig slutsats. Vi var ju överens om att börja med persistent identifierare för varje programvara i katalogen. Men jag uppdaterar ju katalogen när jag får en minut över här och var. Poängen är ju att datat inte ska vara perfekt från början, utan att vi i forumet tillsammans skapar ett bra dataset via ett öppet arbetssätt (via återkoppling i denna tråd etc). Det är ju inte svårt för mig att stänga ner projektet och återkomma när jag är klar, exempelvis orgnummer är ju enkelt att lägga till.
Offentligkod.se är inte taffligt. @dpriskorn @salgo60
Jag tror vi kommer från 2 olika håll... kan jag inte enkelt koppla ihop saker för att saknas tydlighet vilken programvara det syftas på så har vi inte semantisk interoperabilitet....
Nina skrev några rader på Forumet vilka programvaror DIGG använde och det var ett mindre €#%#& att göra en någonsådar koppling til WD
Exempel sida där det borde tas höjd att peka på "known vocabularies" #51 så att det fungerar på Europa portalen... att skicka runt textsträngar med språkkod funkar inte
Klart jag håller med om att semantisk interoperabilitet är viktigt. Säger bara att det medvetet ska införas stegvis i detta fall. Dock tycker jag sårbarheter ska detekteras utifrån exakta versioner etc utifrån den faktisksa källkoden som finns på Github, så katalogen ska inte användas i det syftet tycker jag. Vad är din rekommendation för nyckelord Magnus? Har inte hunnit gå igenom vokabulären (eu-länken).
@salgo60 kul att du hittat ett bra exempel i Norge som svenska myndigheterna kan ta rygg på. Jag har ofta sett hur lagar och arbetssätt jag känner igen från DK introduceras så småningom även i SE under mina 13 år här.
Dock är det oklart om bristerna som påpekats ens är begripliga för de som rattar spakarna på regeringskansliet eller politikerna som styr. Det får tiden visa.
Man skulle ju kunna fråga de öppet data ansvariga på regeringskansliets infrastrukturdepartement om varför SE avviker från resten av världen när det gäller delning av data utan semantisk interoperabilitet i dataportalen. Dock vill jag påpeka att jag även hittat textsträngar och liknande brister som du påpekar i datamängder om vandringsleder från New York och Pennsylvania
Jag hittade Norge på EDPs presentationer om teknisk öppenhet (se EDP "Understanding open data: technical openness" video/slides) vilket är nog så viktigt men inte handlar om licens som brukar kallas politisk öppenhet ( se EDP "Understanding open data: legal openess" Friday 18 November 2022 at 10.00-11.30 CET video/slides)
@dpriskorn här har du JSON på det som landar i Euopean Data Portal
Exempel EDP https-catalog-skl-se-store-1-resource-38
Kollar man på nyckelord som används så borde nog skolungarna lära sig cs = tjeckiska ;-)
#European Data portal Keywords most used
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dc: <http://purl.org/dc/terms/>
SELECT ?key (count(?s) AS ?count) WHERE {?s a dcat:Dataset . ?s dcat:keyword ?key} GROUP BY ?key order by desc (?count)
<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203661493-b697cdba-6ba0-48be-96b2-670dd2ca8633.png">
<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203661838-e47d5048-20b6-462f-8009-f799da33d14c.png">
<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662010-84af93ce-0915-42c2-9242-28303e61f013.png">
<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662117-da24a3d2-fcae-49a1-8b23-33fb4346b362.png">
<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662159-9543eb45-afde-4bb5-8ea0-77e6f2b5d5cf.png">
<img width="1106" alt="image" src="https://user-images.githubusercontent.com/14206509/203662224-1d29beb6-2c5f-4e5e-8de5-ab04edddef3a.png">
# Kunskapsgraf hos EDP
Jag hade fräckheten på ett EDP event 17 nov 2021 att säga att när Google hade presenterat hur dom jobbar med Kunskapsgrafer så
> springer inte EDP åt fel håll som skickar runt massa text strängar med en språktag
EDP svar var [lite mummel vid 54:20](https://www.youtube.com/watch?t=3263&v=COBykM5d_cg&feature=youtu.be) och jag uppfatta att problemet dom såg var kompetensen ute i länderna dvs. för Sverige skulle det vara DIGGs förmåga med KG #70
[Googles presentation 22:30](https://youtu.be/COBykM5d_cg?t=1348) med Knowledge graph reconciliation....
* både EDP och svenska portalen saknar detta steget och saknar KG är min känsla...
* det som skickas in visas för slutanvändarna... kan vara att textsträngar översätts men det blir gissar jag samma haveri som [Europeana och konstnärer jag visade på 2019](http://minancestry.blogspot.com/2020/03/carl-larsson-who-is-that-sadly.html) - vet inte om EDPs datakvaliten diskuteras någonstans.... har inte hört någon på den svenska portalen som använder det datat....
<img width="896" alt="image" src="https://user-images.githubusercontent.com/14206509/203662970-3a3c9192-d48b-4735-9905-2b02048e6724.png">
## Kunskapsgraf hos NOSAD
Se [#77-18](https://github.com/salgo60/DiggUptime/issues/77#issuecomment-1336125092) verkar helt saknas en drivkraft att våga ta steget med bra metadata utan DIGG fokuserar på forum regler... [Vaffor då då - varför gör dom på detta vis](https://www.youtube.com/watch?v=f397zrwXkok)
[<img width="952" alt="image" src="https://user-images.githubusercontent.com/14206509/205436224-79421b59-6660-4136-a24f-eb617a8c4d0f.png">](https://www.youtube.com/watch?v=f397zrwXkok)
Vad är din rekommendation för nyckelord Magnus?
@jonassodergren hade hoppats du hade varit på metaverse snacket idag....
Lösa tankar 1) mervärdet kommer om saker styrs upp - idag saknas det aktivt städande, verkar som alla laddar upp det dom vill och ombeds läsa manualen... 2) min bakgrund säger att kontrollerade vokabulär är det man skall ha och att även DIGG skulle skapa svenska vokabulär som länkas med EUs.... 3) kollar man på @dpriskorn så har han skapat magiska verktyg som märker upp vetenskapliga dokument i Wikidata med ämnesord som bestäms av den som kör verktyget.... bra eller dålig?
Min vaga tro är att mästaren på findability Google kör sin kunskapsgraf som dom kopplar ihop allt med inklusive metadata om dataset sedan är deras sökmotor smart och söker i delar av kunskapsgrafen efter säkert mycket hemliga algoritmer....
Så mitt svar kopplingar skall man ha men kanske enklast är att ta kända vokabulär och göra som EU säger ovan
@dpriskorn här har du JSON på det som landar i Euopean Data Portal
Exempel EDP https-catalog-skl-se-store-1-resource-38
- samma som ??? verkar inte peka tillbaka till dataportalen.se, känns som dom automat översätter lablar i metadatat till flera språk - borde kanske vara samma som https://www.dataportal.se/sv/datasets/653_26811 men nu pekar den på catalog.skl.se * datat finns här som csv på svenska EDP pekar på catalog.skl.se/store/1/resource/173
Mm. Intressant att de kör RDF öht. Det hade jag inte väntat mig. Vem rattar RDF-obtologin hos SKR? Här beskriver de sig själva med textstäng endast. Ingen reconsiliering verkar ha gjorts. Det är en RDF silo verkar det som 🤷♂️
Undrar om SKR är med i molnet.
Intressant att de kör RDF
@dpriskorn det är entryscape så det är nog csv in och geggig rdf ut ingen semantiker har anställts....
Senast jag kontakta SKR om kommuninfo och öppen data var deras data bara en test utan licens kan vara samma data som nu seglar runt utan att någon tar ägarskap för datat och bryr sig,,.,,
Feedback SKR om deras data 2020 dvs. Inget ägande mer trams...
GITHUB #86 Länkade nyckelord och begrepp har nu varit öppen i 19 månader jag försöker få en status om DIGG gör något
Hur tafligt Europeiska dataportalen fungerar idag --> att ingen reagerar betyder att det är fel kompetenser i projekt som Nationell Dataverkstad #30 "Styra upp att bra metadata skickas med DCAT-AP till EDP" / DIGG --> #100
Se GIST Koommundiarie mha chatgpt.md
Detta borde vara del av DIGGs kvalitetsrapport #878 878
DIGGS task id: /topic/364 IA https://github.com/DIGGSweden/DCAT-AP-SE/issues/86
We need keywords that are shared from known vocabularies see FAIRDATA I2 (Meta)data use vocabularies that follow the FAIR principles samma som https://github.com/DIGGSweden/DCAT-AP-SE/issues/86 compare https://github.com/salgo60/SDGMapperSweden/issues/6#issuecomment-1164219768 see https://github.com/salgo60/ProjectOutdoorGyms/issues/120#issuecomment-1242183361
Page 45 August 2021 doi:10.2830/333095