datagov-cz / otevrene-formalni-normy

V tomto repozitáři jsou otevřené formální normy pro otevřená data v ČR a sbíráme zde na ně další požadavky. Tento repozitář je udržován v rámci projektu OPZ č. CZ.03.4.74/0.0/0.0/15_025/0013983.
https://ofn.gov.cz
17 stars 13 forks source link

validace dat odkazovaných z NKOD #432

Closed lojzik closed 2 years ago

lojzik commented 2 years ago

bylo by možné odkazovaná data validovat v okamžiku registrace datové sady nebo lokálního katalogu, případně validitu i průběžně ověřovat? Sice existují nějaké ukazatele kvality v NKOD, ale není tam shoda dat se schématem. Viz například úřední desky, kde jsou překlepy v názvech položek, chybí povinné položky apod. Kromě toho, aby měl autor již při vkládání datové sady ověřeno, že odkazuje platná data by bylo vhodné, aby byl konzument při nalezení datové sady informován o tom, zda jsou publikovaná data platná nebo ne a nemusel až při použití zjišťovat, že data platná nejsou.

jakubklimek commented 2 years ago

Ano, možné to je. Avšak díky tomu, že ta data v NKOD jsou přístupná i strojově (SPARQL, GraphQL, Linked Data Fragments), může tuto validaci udělat kdokoliv. Z hlediska NKOD je stahování souborů a jejich validace je aktuálně out of scope. Ostatně jako rychlý check konkrétně pro úřední desky může sloužit testovací aplikace, která sice nedělá validaci, ale s validitou dat počítá a na časté problémy poukazuje.

lojzik commented 2 years ago

testovací aplikace správně nereaguje ani na chybějící povinné údaje se kterými pracuje, viz například Litoměřice, kde je překlep a úřední deska je prezentovaná pouze jako prázdná. Nebo ignoruje formát dat, například u Jablunkova položky relevantní_do. Jestli je to z pohledu NKOD out of scope je věcí názoru, jednou je předepsáno schéma a jsou akceptována a odkazována data, která toto schéma nedodržují.

jakubklimek commented 2 years ago

Ano, je to testovací aplikace, ukazující na některé, ne však všechny možné problémy. Je to aktuálně out of scope NKOD ve smyslu že bylo zvažováno, zda by to v NKODu mělo být, a bylo rozhodnuto, že zatím ne, ve prospěch jiných funkcionalit. Navíc, jak jsem říkal, prostředky pro tvorbu takového validátoru NKOD poskytuje, vytvořit ho není problém. Ostatně pokud takovou aplikaci/validátor vytvoříte, rádi jí budeme v kontextu této OFN propagovat.

lojzik commented 2 years ago

Že jsou priority jinde a zatím tam ty kontroly nejsou je asi ok. Ale bylo by vhodné některé texty přeformulovat. Ze současných textů v testovací aplikaci "pokud vidíte chybu.... zkontrolujte validitu" by mělo být upozornění "absence chyby a zobrazení dat neznamená jejich správnost, ověřte data validátorem", neboť to teď vytváří dojem, že pokud není aplikací zobrazena chyba, tak validitu ověřit netřeba. Podobně by se to mělo dostat do příkladů chybné praxe, kde nevalidnost json a jeho kontrola zmíněna není.

jakubklimek commented 2 years ago

Máte pravdu. Příklad špatné praxe jsem přidal, a info v aplikaci přeformuloval.

lojzik commented 2 years ago

Díky. Nevim jak v případě jiných formátů, ale v případě úředních desek mi ta nevalidnost přišla okometricky relativně častá, tak to možná ještě výslovně zmínit v nové sekci špatné praxe "Nejčastější chyby při použití formátu JSON", aby se upozornilo, že na tohle fakt pozor. Ale to už asi není úplně nutné.

jakubklimek commented 2 years ago

Přidal jsem JSON sekci a do CSV, XML i JSON sekce jsem přidal odkaz na tu stejnou novou špatnou praxi (teď je tam tedy 4x, ale je to důležité).

lojzik commented 2 years ago

super, díky