diggsweden / DCAT-AP-SE

Projekt för DCAT-AP-SE.
https://docs.dataportal.se/dcat/
Creative Commons Attribution 4.0 International
14 stars 3 forks source link

Klargör i specifikationen för vilka textvärden som språk förväntas #84

Closed matthiaspalmer closed 1 month ago

matthiaspalmer commented 3 years ago

I dagsläget beskriver rekommendation 12 när man ska tillhandahålla en språkangivelse för en text. Det vore kanske lämpligt i en framtida version av specifikationen att lägga till information om detta direkt i specifikationsdokumentet.

salgo60 commented 3 years ago

Borde man inte vara tydlig att man skall jobba i riktning semantisk interoperabilitet och begära att det anges - eller finns detta men används inte? Tycker det känns 1980 att prata om att datat presenteras bara på ett språk och inte är språkoberoende...

Jag skrev en artikel i veckan hur vi skapar semantisk interoperabilitet med svenska Litteraturbanken, böcker från tidigt 1900-tal och verk från 1750 där dom redan 1750 insåg vikten av persistenta unika identifierare för runstenar (något jag tjatat om för dataset länk)

image

Lyfter vi inte blicken så fortsätter galenskap som att FHM publicerar sitt data på en svensk WEBsida om hur Corona vaccineringen i Sverige fortskrider och OWiD som sammanställer data för hela världen måste läsa från den sidan... OWiD Sverige data --> uppdateras genom att dom hämtar datat från FHMs svenska websida

kristineulander commented 3 years ago

Just språkangivelse för själva metadatan är ett krav för att i sin tur möta krav i lagen om digital offentlig service. Behovet handlar om en person med en uppläsningsmaskin använder Sveriges dataportal behöver språkangivelse finnas, annars kommer uppläsningen inte fungera på ett bra sätt. Eftersom dataportalen synliggör metadata som publiceras av andra tar vi fram rekommendationer och krav för denna metadata.

Absolut är semantisk interoperabilitet i data prioriterade frågor. Just i detta github-repo har vi ärenden som rör just metadataspecifikationen. Relaterat till dina kommentarer kan verksamheter i metadataspecifikationen peka ut unik idenfierare t.ex URI här

salgo60 commented 3 years ago

visa gärna med exempel jag tror ni springer åt fel håll. Att lägga översättningen i varje dataset utan att knyta ihop samma som känns fel tänkt.... vad händer om det blir krav på att stödja även svenska minoritets språk --> att man skall in och översätta alla dataset....

Att kravet skall vara att när ni hämtar ut data så skall det ha språktag löser man när man hämtar kopplingen till kunskapsgrafen där översättningen skall ligga. Jag har påtalat att EDP Europeiska Dataportalen gör fel som skickar runt massa text strängar med språktag se notebook och även min fråga till dom vid 54:10 minuter om dom inte springer åt fel håll som bara har textsträngar så svarar dom vagt att dom borde nog ha det... ett annat EU projekt Europeana samlar precis som EDP ihop objekt från 3500 museer och där har man inte språktag och inte kunskapsgraf så där har det blivit oanvändbar metadata se min blog "Carl Larsson who is that - sadly Europeana doesnt know --> #Metadatadebt" kostnad för projektet är nog > 100 miljoner Euro och dom starta 2012 med detta...

Om du lägger den språkberoende delen i en kunskapsgraf så behöver man

  1. bara ändra på ETT ställe så ändras detta i alla dataset som pekar på detta objekt i kunskapsgrafen
  2. skall du stödja flera språk så ändrar du på ett ställe och lägger till detta språk i kunskapsgrafen
  3. när du hämtar ut data så kopplar du ihop objektet i kunskapsgrafen
  4. snyggast vore om ni skapa en kunskapsgraf ihop med alla andra dataportaler så vi enkelt kan söka i alla EU portaler samtidigt på vårt eget språk och läsa på vårt eget språk
  5. Jag ser bara Wikidata som ett socialt experiment som visar att tekniken finns men skall man vara seriösa som Amazon, Facebook, Google så har man sin egen kunskapsgraf....

Datamängdens huvudsakliga identifikator, t.ex. en URI eller annan unik identifierare i katalogens sammanhang. känns mer att ha en unik identifierare för datamängden vilket är lika viktigt

Jag kollade lite hos EDP och dom sitter med massa data med språkkoder och har ingen kunskapsgraf dvs. det står "kommunkod lang=sv" dvs. kan du inte svenska så måste du börja leta vad kommunkod betyder och försöka förstå vad det är och skall du hitta motsvarande kod för övriga Europeiska länders dataset tar det tid....

image

matthiaspalmer commented 1 month ago

Det står tydligt i specifikationen i dagsläget att värdemängden är Sträng med språk när så är fallet. Det borde vara tydligt nog.

salgo60 commented 1 month ago

Sträng med språk när så är fallet

Dagens svenska data i EDP efter att dataportalen funnits > 10 år

image

Tror jag inte sett ett enda dataset med språktag som levererats det måste vara obligatoriskt och tydligare...


2020 hade inte EDP en kunskaposgraf

Jag kollade lite hos EDP och dom sitter med massa data med språkkoder och har ingen kunskapsgraf dvs. det står "kommunkod lang=sv" dvs. kan du inte svenska så måste du börja leta vad kommunkod betyder och försöka förstå vad det är och skall du hitta motsvarande kod för övriga Europeiska länders dataset tar det tid....

image

2021 status Kunskapsgraf hos EDP

Jag hade fräckheten på ett EDP event 17 nov 2021 att säga att när Google hade presenterat hur dom jobbar med Kunskapsgrafer så

springer inte EDP åt fel håll som skickar runt massa text strängar med en språktag

EDP svar var lite mummel vid 54:20 och jag uppfatta att problemet dom såg var kompetensen ute i länderna dvs. för Sverige skulle det vara DIGGs förmåga med KG #70

Googles presentation 22:30 med Knowledge graph reconciliation....

image
matthiaspalmer commented 1 month ago

@salgo60 Jag gjorde just en koll, 97.7% av alla datamängder har en språkangivelse på rätt sätt i Sveriges dataportal. Så, jo, vi kan och ger det ansvaret till de som levererar metadata och det ansvaret tas emot väl.

Det exemplet du tar "Utegym Tidaholms kommun" vars formella URI är: https://catalog.tidaholm.se/store/2/resource/52 (Som också har korrekt content negotiation till flera olika RDF format.)

Den datamängden har titel angiven på både svenska och engelska med korrekta språktaggar. Båda titlarna finns också korrekt representerade på data.europa.eu.

Dessutom finns ytterligare titlar som de automatöversatt till andra språk, det är deras val att de gör det. Det är inget vi kan påverka. För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs.

Vidare är det samma identifierare för datamängden i Tidaholms egen datakatalog som på dataportal.se, den bevaras alltså vid vår skördning. Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder. Det är ett beteende som jag personligen tycker illa om, men det är inte förbjudet. Vi driver aktivt ett påverkansarbete för att bevara URI:er hela vägen. Vilket bland annat har lett till att det finns en mer nyanserad diskussion om frågan, men vi har inte gått iland med ett ändrat beteende ännu. Kanske kommer det i samband med nya principer om skördning och stabilitet i vad som skördas.

Men, notera att frågan om beständiga identifierare är separat och inte en del av detta ärende.

Så, @salgo60 jag förstår inte vad du klagar på. Du har fel i sak och jag saknar stringens, saklighet och fokus kring ämnet i ärendet i din kommentar. Du bör överväga detta innan du kommenterar mer framöver, annars finns en risk att jag av rutin kommer ta bort dina inlägg. Du kanske upplever detta som lite hårt sagt, men jag säger detta ur ett tidseffektivitetsperspektiv vid arbete med skattefinansierad verksamhet.

salgo60 commented 1 month ago

1) Den datamängden har titel angiven på både svenska och engelska med korrekta språktaggar. Men EU är väl inte 2 språk? Skall DCAT-AP-SE fungera så måste ni leverera på alla dom språk som öppna dataportaler ni skickar till stödjer... testa att google översätt tillbaka till svenska hur det blir hos EDP

Fråga 1-1: finns den i svenska dataportalen jag hittar den inte LÄNK

image

2) Jag gjorde just en koll, 97.7% av alla datamängder

stickprov eller har ni rapporter på metadata kvaliten som vi kan se?

3) Dessutom finns ytterligare titlar som de automatöversatt till andra språk, det är deras val att de gör det

Lyssnar du på min fråga 2022 där jag hävdar att EDP (och även Svenska dataportalen) gör fel så svarar dom och jag tolkar det som EDP tycker att det är ni lokala länder som är problemet att man inte följer best practise som Google och andra gör med Knowledge Graph / reconciliation... skriver ni nu nya specar så bör ni peka på vikten av att datat kommer att skickas till EDP och skall stödja dom språk dom har > 20 stycken

Det jag ser

4) För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs. Testa med Google Translation och översätt dom tillbaka det blir mycket trams.....

4-1) För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs

image

skall man skapa en DCAT-AP-SE spec som skickas till en europeisk dataportal så måste den levererade kvaliten vara ok

5) Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder. Det är ett beteende som jag personligen tycker illa om, men det är inte förbjudet. Vi driver aktivt ett påverkansarbete för att bevara

Fråga 5: Var kan vi följa detta påverkansarbete. Loggas inte ärenden så kommer saker som detta aldrig att lösas...

image

6) Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder

Fråga 6: varför kan ni inte hämta tillbaka EDP url:arna och ha det i svenska dataportalens data som sedan kan hämtas av de lokala dataportalerna... inte fel att ha schema.org/sameAs

7) Du har fel i sak och jag saknar stringens, saklighet och fokus kring ämnet i ärendet i din kommentar

jag tror ni konsulter biter er själva i foten när vi nu 2024 sitter med dålig data och specar en DCAT-AP-SE spec där det borde vara tydligt att det mottagaren konsumerar dvs. EDP knappt går att använda och att dom vill ha data > 20 språk. Att bara vifta bort det som det är deras ansvar eller att det är dom som skickar in det till svenska dataportalens ansvar fungerar inte, då får vi i bästa fall svenska/engelska.... och EDP försöker koka soppa på en spik...

Läs vad EDP vill ha av er map data kvalitet

image

8) men jag säger detta ur ett tidseffektivitetsperspektiv vid arbete med skattefinansierad verksamhet.

Nix ingen är mer glad än jag om ni levererar och vågar utmana DIGG kommuner myndigheter...

blir bara sorgsen att se projekt som NSÖD som dag 0 talar om att skala upp och sedan sitter vi nu 2024 med samma laguppställning och samma dåliga data.... Tror det skulle behövas en Jens Nylander som visade på kostnader av allt dålig data

matthiaspalmer commented 1 month ago

Appropå fråga 1.1: @salgo60 Tack för att du påpekar att datamängden saknas. Datamängden finns på Västra Götalands portal: https://www.vgregion.se/ov/dataportal-vast/datakatalog/

Men inte på dataportal.se. Det verkar som Tidaholm har två datakataloger i två olika system. Och den som skördas till dataportalen inte har några publika datamängder. Vi kontaktar dem och frågar hur det ska vara.

Fråga 1: Nej, finns inga krav på att tillhandahålla titlar på 20 språk, uppenbart slöseri med tid och resurser. Bättre EDP automatöversätter till de språk man inte tillhandahåller. Att tillhandahålla på svenska och engelska är en bra kompromiss ur ett svenskt perspektiv, en del kan vilja tillhandahålla mer.

Fråga 2: Nej det finns ingen publik rapport, du kan gå in på enskilda organisationer på admin, eller skriva ett skript mot dumpen här: https://admin.dataportal.se/all.rdf

Fråga 3: Jag förstår inte vad du referar till. Vi leverar länkade data med URI:er nästan överallt. Dvs things istf. strings. De få ställen där det är strängar är för att du måste ha det, t.ex. titlar. Som jag skrev tycker jag det är bra att EDP gör det. Finns ingen konflikt.

Fråga 4 och 4.1 går inte att förstå. Om du inte vet vad named graphs är bör du slå upp det, inte ställa irrelvanta och svårtydbara frågor. Det slösar bådas våran tid.

Fråga 5: Jodå det går att följa, se här: https://github.com/SEMICeu/DCAT-AP/tree/master/Webinars/10-Mar-2022 och den resulterande rekommendationen (som jag inte är helt nöjd med) finns här: https://github.com/SEMICeu/DCAT-AP/blob/2.x.y-draft/releases/2.x.y/usageguide-identifiers.md

Fråga 6: Det handlar om prioriteringar och lämplighet, i detta fall är det högst olämpligt. EDP lägger en referens på CatalogRecord nivån via dct:identifier som en sträng... Inte så jag skulle gjort det men bättre än inget.

Fråga 7: Det är ingen som viftar bort något. Men EDP hanterar inte data, bara metadata. Så kritiken som börjar med att vi sitter med dålig data och att det är 2024 applicerar inte. Du får ta det i något annat fora. Vi gör det vi ska och mer därtill när det gäller metadata. Sverige kommer sannolikt vara först ut med att införa DCAT-AP3.

Fråga 8: Du får bli hur ledsen du vill över att saker inte är som de borde. Men min roll (och många andras) är att agera professionellt och hjälpa våra myndigheter när de efterfrågar det. I detta fall handlar det om nästa version av DCAT-AP-SE, inget annat. Så vi får försöka hålla oss till ämnet.

Sen vill jag påpeka att mina svar ovan är relativt korta och bemöter det du sagt, inget annat. Inga onödiga bilder eller länkar till saker som inte har med saken att göra. Det gör att det blir betydligt lättare att besvara. Jag uppmanar dig att reflektera över detta om du vill att dina inlägg ska bli lästa och göra en verklig skillnad.

Härmed kommer jag stänga detta ärende då själva frågan är avgjord, dina frågor är besvarade och ingen åtgärd är planerad för DCAT-AP-SE3.

salgo60 commented 2 weeks ago

Det är ingen ide att argumentera blir bara tragiskt att en extern konsult som skall få fart på öppen data tycker svenska engelska är ok och #76 DIGG som skall vara en expert myndighet verkar helt sakna visioner eller kunskaper att bygga ekosystem

men bara tanken att svenska engelska är ok när vi har fem lagskyddade minoritetsspråk i vårt land: finska, meänkieli, jiddisch, romani och samiska och detta skall skickas till en europisk dataportal blir det galet..

image

dvs. det ni ser är key dvs. ämnesord som är idag massa textsträngar som måste vara länkade data ifall detta skall fungera.... dvs. det är inte bara datasettet som skall ha länkade data utan även metadatat gissar att ingen ens orkar reagerar på dina kommentarer visar på hur stort kunskapsglapp det är mellan att kunna leverera bra data och de pdf dokument som skrivs idag.....

Gissar att bra metadata från icke svensk talande länder kan vara av intresse.... annars så är hela iden med EDP fel... eller ännu ett kejsarens nya kläder där konsulter hejar på dåliga lösningar som inte gör skillnad...

Nog om detta trams...


Fler och fler verkar tycka det fungerar dåligt med dataportalen se diskussion tråkigt att DIGG inte är starka nog att vara del av diskussionen....

image

Målet måste vara att skapa användbar data / metadata

image