Informasjonsforvaltning / fdk-issue-tracker

An issue tracking repository for data.norge.no
1 stars 0 forks source link

BUG: dct:format skal peke til det kontrollerte vokabular file-type fra EUs Publications Office #703

Closed jimjyang closed 2 weeks ago

jimjyang commented 1 year ago

🐛 Bug rapport

Nåværende oppførsel

Med datasettet Enhetsregisteret (https://data.norge.no/datasets/68d08f28-a16d-4fab-a953-ed4ab08ce2e2) som eksempel: Linjenr. 22 (blant mange andre) i Turtle-filen peker til ressursene hos www.iana.org, f.eks. https://www.iana.org/assignments/media-types/application/json.

Forventet oppførsel

DCAT-AP-NO (https://data.norge.no/specification/dcat-ap-no#Skal-brukes-for-format) sier at EUs kontrollerte vokabular for file-type skal brukes, dvs. http://publications.europa.eu/resource/authority/file-type/JSON for eksemplet ovenfor.

Hvordan reprodusere?

Se på Turtle-filen av nevnte datasettbeskrivelsen.

Forslag/Løsning [Valgfritt]

Skal altså bruke EUs kontrollerte vokabular for file-type, http://publications.europa.eu/resource/authority/file-type

Sjekkliste (Sjekk av etter issue er laget)

jimjyang commented 1 year ago

Fikk tips om at hvis iana brukes, så skal det brukes http og ikke https.

(Tilsvarende med ref. til EUs kontrollerte vokabularer, at det skal brukes http og ikke https)

NilsOveTen commented 1 year ago

Dette vil si at vi skal fjerne bruk av iana i registrering av format på både distribusjoner og datatjenester, og gå over til å kun bruke file-types? Eller skal vi støtte begge deler i registrering?

File-types er allerede lagt til i reference-data, så i dataset-catalog-gui og dataservice-catalog-gui er det "bare" å bytte ut hvilken liste som lastes ned og vises som alternativ. Men det blir også nødvendig å oppdatere medfølgende titler og hjelpetekster, de er rimelig iana-spesifikke.

Om det endres vil vi fikse det for fremtidige registreringer, men hva med de som allerede er registrert?

Hvis det er to ekvivalente format i iana og file-types, skal vi da bytte ut bruken med varianten fra file-type? Legge den til ved siden? Eller la iana-varianten bli liggende uten endring? Hva hvis det er snakk om variant fra iana som ikke har en ekvivalent i file-types? Skal de fjernes? Bare bli liggende?

jimjyang commented 1 year ago

Kravet er at EUs file-type skal brukes. Noen sier at EUs høsteløsning er "snill" og tar i mot iana også, men da skal det være http og ikke https.

Foreslår derfor at nyregistreringer skal bruke EUs file-type, og bare den. For gamle registreringer, hvis det ikke koster skjorta, konverter https til http hvis noen.

NilsOveTen commented 1 year ago

Ok, da tror jeg vi bør dele dette opp i 3 issues.

Først utføre et issue i både dataset-catalog-gui og dataservice-catalog-gui, der vi går over til file-types i begge registreringsløsningene. Og så beholder vi dette issuet her i issue-tracker for ETL'ene som må utføres i begge databasene, denne blir da blokkert frem til de andre to er utført. Ok?

NilsOveTen commented 1 year ago

@valosnah Atm er dette blokkert av denne:

Når de er utført må vi kjøre en ETL som endrer protokollen til div iana-formater fra https til http

KurtStian commented 11 months ago

Se også: https://github.com/Informasjonsforvaltning/fdk-issue-tracker/issues/752

NilsOveTen commented 2 weeks ago

dataservice-catalog støtter ikke dct:format, blir løst av disse: https://github.com/Informasjonsforvaltning/dataservice-catalog/issues/193 og https://github.com/Informasjonsforvaltning/dataservice-catalog-gui/issues/231

Men ellers er alt i orden, lukker.