datagov-cz / lkod

Referenční implementace Lokálního katalogu otevřených dat. Tento repozitář je udržován v rámci projektu OPZ č. CZ.03.4.74/0.0/0.0/15_025/0013983.
MIT License
2 stars 2 forks source link

Doplnit validaci distribucí #5

Closed sinacek closed 3 years ago

sinacek commented 3 years ago

Formulář nyní umožnuje zadefinovat více distribucí se stejným formátem, což jsem chápal, že OFN nepovoluje.

jakubklimek commented 3 years ago

Takhle jednoduché to ale není.

  1. DCAT říká, že distribuce se od sebe liší formátem, nikoliv obsahem. To je pravda. Zjednodušeně tedy to znamená, že lze poskytovat data datové sady v CSV, JSON, XML, RDF za předpokladu, že obsah je více méně stejný. Protipříkladem je datová sada, kde distribuce se liší územním nebo časovým pokrytím, což mají být jednotlivé datové sady.
  2. Pro indikaci formátu je použit Media type a File Format EU číselník - což je to, o čem je tu řeč. Jenže to, že 2 distribuce používají stejný formát, je důsledek/indikátor toho problému se špatným dělením datových sad, nikoliv pravidlo, které by říkalo, že to je automaticky blbě.
  3. Existují use casy, kdy je pravidlo 1. splněno, a přesto mají 2 distribuce stejný formát. Příkladem může být datová sada, která má 2 JSON/XSD/RDF/CSV distribuce - tj. stejný formát na úrovni rozlišovací schopnosti Media typů a EU číselníku, ale liší se například schématem, vůči kterému jsou validní, tj. vnitřní strukturou v rámci formátu. Pak je vše v pořádku.

Tedy bych toto omezení do formuláře natvrdo neimplementoval, maximálně jako nějaké varování "pozor, distribuce s tímto formátem už existuje, ověřte že nejste případ https://opendata.gov.cz/špatná-praxe:špatné-dělení-distribucí"

sinacek commented 3 years ago

jasně, tak to uzavírám