diggsweden / DCAT-AP-SE

Projekt för DCAT-AP-SE.
https://docs.dataportal.se/dcat/
Creative Commons Attribution 4.0 International
14 stars 3 forks source link

Ska specifikationen bara vara strikt och konservativ eller ska den stödja inmatningen av metadata med god kvalitet? #41

Closed bjornhagstrom closed 4 years ago

bjornhagstrom commented 4 years ago

Som jag uppfattar specifikationen idag så innehåller den strikta regler för definitioner av metadata men inte så mycket stöd för hur man ska ta fram metadata som ger mesta möjliga information till slutanvändaren. Jag ger ett exempel här. Idag ser 3.1.1 Datamängd - Titel ut såhär:

3.1.1 Datamängd - Titel

Beteckning Titel Beskrivning Datamängdens namn. Denna egenskap kan upprepas för parallella språkversioner av namnet. Egenskap http://purl.org/dc/terms/title Värdemängd Sträng med språk Kravnivå Obligatorisk Kardinalitet 1..n

Den skulle kunna kompletteras med något i stil med detta: "Rekommendation Titeln bör tydligt beskriva datamängden för användare som inte känner till er organisation eller sammanhanget som data skapades inom. Ett exempel på en mindre bra titel är "Statistik 2015-2019", en bättre titel skulle vara "Statistik om besök på öppndata.se under 2015-2019". Den senare titeln är mer informativ och ger användarna förutsättningar att tolka och utvärdera innehållet. Titeln bör inte innehålla organisationens namn."

Tankar? Detta skulle i så fall behövas på i princip alla punkter i specifikationen.

thomaskvist commented 4 years ago

Håller helt med. Om DCAT-AP ska bli till maximal nytta så är den typen av konkreta texter som behövs. Man kunde också tänka sig en länk till en samling av bra exempel på metadata för olika typer av data. Kanske är det lättare att underhålla en exempelsamling och ge mer stöd och bidra till en generellt högre kvalitet på metadatat? Kanske kan en sådan exempelsamling rentav vara europeisk?

bjornhagstrom commented 4 years ago

Ja jag är helt övertygad om att det behövs, frågan är om det ska vara en del av standarden eller ligga i ett separat dokument. Jag är inte helt säker men det känns rimligt att samla allt på ett ställe på något sätt.

kristineulander commented 4 years ago

Rekommendation om hur och varför "Theme" bör användas är viktigt utifrån filtrering

kristineulander commented 4 years ago

Rekommendation om hur nyckelord / Keyword bäst bör användas är viktigt utifrån sök

kristineulander commented 4 years ago

Under "Intro" föreslår jag att det ska finnas en övergripande beskrivning vad katalog, datamängd, distribution, datatjänst betyder i den här kontexten samt hur de förhåller sig till varandra.

thomaskvist commented 4 years ago

Är inte nyckelord överspelade i sökfunktioner? Sökalgoritmerna utgår väl från innehållet i texterna och statistik över vilken länk bland söksvaren som blev klickad? Är ingen expert på hur sökmotorer funkar men jag har fattat det som att fylliga beskrivningar är det viktigaste för att sökmotorn ska indexera bra och hitta rätt. Så att satsa tid på ordentliga beskrivningar, kanske med hyperlänkar till kompletterande beskrivningar tror jag är det viktigaste.

kristineulander commented 4 years ago

Främsta anledningen, från mitt perspektiv, är att möjliggöra att portalen (och europeiska portalen) ska träffsäkert kunna ha en bra filtrering på nyckelorden som är kategoriserade på startsidan och i filter. Det finns många datamängder som ligger inom kategorier, men där beskrivningen är väldigt "specifik" så den missas i fritextsökningen på det övergripande ordet.

Jämför träfflistan mellan t.ex att trycka på kategoriknapparna vs att fritextsöka exakt samma ord.

Framför allt är denna typ av filtrering extra viktig mot den användare som är av det mer utforskande slaget, inte den person som specifikt vet vad hen är på jakt efter

bjornhagstrom commented 4 years ago

Det finns också ett värde i att kunna följa inom vilka områden det publiceras data aktivt. Annars håller jag med dig Thomas om att det är fritext och rubrik som är de viktigaste fälten.

On Tue, Jan 28, 2020 at 6:59 PM kristineulander notifications@github.com wrote:

Främsta anledningen, från mitt perspektiv, är att möjliggöra att portalen (och europeiska portalen) ska träffsäkert kunna ha en bra filtrering på nyckelorden som är kategoriserade på startsidan och i filter. Det finns många datamängder som ligger inom kategorier, men där beskrivningen är väldigt "specifik" så den missas i fritextsökningen på det övergripande ordet.

Jämför träfflistan mellan t.ex att trycka på kategoriknapparna vs att fritextsöka exakt samma ord.

Framför allt är denna typ av filtrering extra viktig mot den användare som är av det mer utforskande slaget, inte den person som specifikt vet vad hen är på jakt efter

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/MetaSolutionsAB/DCAT-AP-SE/issues/41?email_source=notifications&email_token=AAHQC4KD6ONJPIKMB76ICHDRABW7RA5CNFSM4JSYA252YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKEJQPI#issuecomment-579377213, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAHQC4JGI4TKCUGQP3AGZ3DRABW7RANCNFSM4JSYA25Q .

--

Björn Hagström bjorn@hagstrom.nu +46 706-44 01 44 http://hagstrom.nu/

thomaskvist commented 4 years ago

Fast om syftet är filtrering är det väl kategorier med bestämda värdeförråd man ska? Filtrera mha nyckelord funkar väl inte så bra? För mig är nyckelord något som är ostrukturerat och inte alls bra för filtrering då både homonymer och synonymer förekommer.

bjornhagstrom commented 4 years ago

Ah jag tänkte på teman och inte nycketord, my bad.

On Tue, Jan 28, 2020 at 10:26 PM Thomas Kvist notifications@github.com wrote:

Fast om syftet är filtrering är det väl kategorier med bestämda värdeförråd man ska? Filtrera mha nyckelord funkar väl inte så bra? För mig är nyckelord något som är ostrukturerat och inte alls bra för filtrering då både homonymer och synonymer förekommer.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/MetaSolutionsAB/DCAT-AP-SE/issues/41?email_source=notifications&email_token=AAHQC4OE5QYUBWBKMNKLAVDRACPGVA5CNFSM4JSYA252YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEKE6UZA#issuecomment-579463780, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAHQC4N257JUYD6Q64JBDRDRACPGVANCNFSM4JSYA25Q .

--

Björn Hagström bjorn@hagstrom.nu +46 706-44 01 44 http://hagstrom.nu/

kristineulander commented 4 years ago

Det var teman jag syftade på också - ledsen för sammanblandningen. Men det är iofs ett tecken att det faktiskt skulle vara bra att tydliggöra i en rekommendation vad som är mest viktigt att lägga med i beskrivn, vs nyckelord, vs tema - exemplifiera så att andra lätt kan hålla isär

thomaskvist commented 4 years ago

Då förstår jag. Apropå Teman, kommunerna håller på att med hjälp av Inera klassificera sina verksamheter enligt en "standard" som heter Klassa. Egentlig avsedd att användas i samband med infosäkerhet men är på väg att användas som generell klassificering av kommunal verksamhet. Och för statlig verksamhet finns väl en indelning i Eurovoc. Borde man inte i beskrivningen av Teman ange vilka kategorier i Klassa som ingår i respektive Tema. Skulle underlätta för kommuner om man nu vill hitta datamängder för t ex socialtjänst. Tror dock inte att Klassa har någon europeisk koppling. Det har ju Eurovoc men den är ganska grovt indelad. Åtminstone var den det sist jag tittade på den. Kanske skulle den översta nivån skulle funka som värdeförråd för teman. https://eur-lex.europa.eu/browse/eurovoc.html#arrow_32 Men frågan är hur kommunala data skulle passa in...

matthiaspalmer commented 4 years ago
  1. Skrivit rekommendation om tema/nyckelord: https://diggsweden.github.io/DCAT-AP-SE/docs/recommendations.html#10-tema-och-nyckelord
  2. Specifikationen är nu sammankopplad med rekommendationerna.
  3. Finns en inledande text på specifikationen med ett diagram.