datova-kancelaria / nkod-pipeline

Obsahuje export LP-ETL pipeline NKOD pro deployment do k8s
0 stars 1 forks source link

Nesprávna reprezentácia množiny datasetov LKODu MFSR #44

Open miroslavliska opened 4 months ago

miroslavliska commented 4 months ago

Niektore datasety su registrovane nespravne aj v zdrojovom opendatovom portali MFSR dostupnom na https://opendata.mfsr.sk/ Problemom je, ze to co sa poklada za dataset s distribuciami je v skutocnosti Datova seria s datasetmi. Zjednodusene povedane, kazdy subor, ktory plati pre iny cas (alebo lokalitu) je novy dataset, nie distribucia! Vsetky distribucie datasetu musia byt obsahovo rovnake, lisia sa len vo formate. Tu je to mozne vidiet na standarde DCAT-AP-SK2.0: https://datova-kancelaria.github.io/dcat-ap-sk-2.0/

Aby som bol konrétny, napr. dataset DLH A DLHOVÁ SLUŽBA MIEST A OBCÍ SR K ULTIMU ROKA https://opendata.mfsr.sk/opendata/show/dlh-a-dlhova-sluzba-miest-a-obci-sr-k-ultimu-roka uvádza že obsahuje 6 nasledovných distribúcií image

Keďže ale je zjavné, že sa jedná o tie isté dáta v inom čase, uvedené distribúcie sú v skutočnosti datasety, zoskupené v tzv. dátovej sérii. Je to z dôvodu presnejšieho popisu cez metadáta. Takto môže každý dataset mať presne nastavené dátum platnosti od, dátum platnosti do, a tak ďalej.

Ako riešenie, ktoré nie je extra náročné odporúčam, aby ste v portáli opendata.mfsr.sk nastavili špeciálny príznak pre dataset, že je to dátová séria. Potom softvér, ktorý generuje LKOD pre takýto dataset vygeneruje: 1) najskôr dataset predstavujúci dátovú sériu, ktorý nebude mať žiadne distribúcie. Jeho názov bude DLH A DLHOVÁ SLUŽBA MIEST A OBCÍ SR K ULTIMU ROKA 2) s každej distribúcie takéhoto datasetu vygenerujete opať dataset, napr. Dlh-a-dlhova-sluzba-obce-2018 bude prvý dataset, Dlh-a-dlhova-sluzba-obce-2019 druhý dataset a podobne, pričom správne nastavíte časové pokrytie datasetu, tj. od 1.1.2018 do 31.12.2018, a podobne. 3) Navyse este pridate udaj, ze tento dataset patri do datovej serie - (do datasetu) - ktorý bol vygenerovaný v prvkom kroku, pričom použiteje vlastnosť z DCAT-AP-SK2.0.1 a to dct:isPartOf https://datova-kancelaria.github.io/dcat-ap-sk-2.0/#dataset-je-s%C3%BA%C4%8Das%C5%A5ou