datova-kancelaria / nkod-pipeline

Obsahuje export LP-ETL pipeline NKOD pro deployment do k8s
0 stars 1 forks source link

Harvestácia LKODu MFSR #15

Open miroslavliska opened 7 months ago

miroslavliska commented 7 months ago

image InputOutput.zip

miroslavliska commented 7 months ago

OK, zistil som že v datasete chýba informácia o poskytovateľa dct:publisher, napr. tu:

https://opendata.mfsr.sk/opendata/catalog/zahranicne-pracovne-cesty-urhh-obdobie-od-1-1-2023

Treba to pridať do každého datasetu.

miroslavliska commented 5 months ago

OK, znovaotváram toto issue: https://github.com/datova-kancelaria/nkod-pipeline/issues/24

1) Jednak sme našli chybu, že datasety používajú neplatné URI: https://github.com/datova-kancelaria/nkod-pipeline/issues/24

2) v súvislosti s novým DCAT-AP-SK-2.0.1 odporúčame doplniť údaj dátum vytvorenia, dátum aktualizácie a webovú linku na dataset zobrazený v ich opendata portáli.

miroslavliska commented 4 months ago

Pridávam aktuálne požiadavky pre LKOD MFSR:

Do LKODu je nutné pridať 1)

Tj. namiesto https://creativecommons.org/licenses/by/4.0/ má byť http://publications.europa.eu/resource/authority/licence/CC_BY_4_0, a namiesto https://creativecommons.org/publicdomain/zero/1.0/ to je http://publications.europa.eu/resource/authority/licence/CC0.

2)

3) URI typu datasetu HVD https://data.gov.sk/def/dataset-type/2 ma spravne URI http://publications.europa.eu/resource/authority/dataset-type/HVD

Toto sme zmenili uz davno. Je to oficialne URI EU, cize ked sa budu harvestovat data do europskeho dataportalu, tak bude hned jasne, ktore su HVD. Tu je nas upraveny ciselnik: https://wiki.vicepremier.gov.sk/pages/viewpage.action?pageId=101817682

4) Do LKODu odporúčame pridať

napr. dataset s URI https://opendata.mfsr.sk/opendata/catalog/faktury-ardal-obdobie-od-1-2-2023, ma domovsku stranku https://opendata.mfsr.sk/opendata/show/faktury-ardal-obdobie-od-1-2-2023

miroslavliska commented 4 months ago

Ešte tu pridám ďaľšie otázky k LKOD MFSR:

1) Máme teda na overovanie úspešnej harvestácie (súčastných aj pridaných v budúcnosti) datasetov používať SPARQL endpoint?

2) Na našom Open data portáli, ktorý je zdrojom pre harvestovanie, je v súčasnosti 125 datasetov. SPARQL Počet datasetov podľa poskytovateľa ich vracia 97. Pod odkazom https://data.gov.sk/organization/2137b75b-83a9-45b1-b60b-20522174ae10organization je uvedených 23 datasetov pre MF SR. V čom spočíva tento rozdiel?