datova-kancelaria / nkod-pipeline

Obsahuje export LP-ETL pipeline NKOD pro deployment do k8s
0 stars 1 forks source link

Distribúcia s neplatným formátom #28

Closed hornik-informo closed 4 months ago

hornik-informo commented 5 months ago

Distribúcia https://data.gov.sk/set/86cf515f-4b67-44e4-8179-6f34284ac4bd/resource/bea56b39-3725-43cb-9ac8-15057635df08 používa ako formát http://publications.europa.eu/resource/authority/file-type/XLM, ale taký nie je v číselníku.

miroslavliska commented 4 months ago

Toto je veľmi dobré issue a občasne sa opakuje. Je to prípad, keď namiesto katalogizačných záznamov sa pridá len odkaz na stránku, kde sú datasety. ako v tomto prípade. Namiesto uvedeného datasetu: https://data.gov.sk/set/86cf515f-4b67-44e4-8179-6f34284ac4bd/resource/bea56b39-3725-43cb-9ac8-15057635df08

má existovať dataset - Číselníky zdravotníckej informatiky, ktorý je typu dátová séria, pričom všetky tieto datasety https://www.nczisk.sk/Standardy-v-zdravotnictve/standardy_zdravotnickej_informatiky/Ciselniky_zdravotnickej_informatiky/Pages/default.aspx sú jeden po druhom zaevidované samostatne.

Inými slovami, formát typu html, alebo aspx, ..., nie sú validnými typmi distribúcií, pretože oni len odkazujú na nejaké externé miesto, kde je nejaký zoznam datasetov. Dôležité je, že v NKODe je zaevidovaný každý dataset rovno.

miroslavliska commented 4 months ago

Čiže inými slovami, tento dataset je zle skatalogizovaný a treba ho inak nahodiť. Toto ale musí riešiť dátový kurátor NCZI. Task uzatváram, posuniem toto do tímu. Takéto prípady by sme chceli aj riešiť prostredníctvom pripravovaného subsystému komunita, kde zadáme komentár k datasetu, kde uvedieme, že sa má opraviť.