slovensko-digital / ekosystem

Verejný issue tracker
https://ekosystem.slovensko.digital
31 stars 0 forks source link

Kvalita RPO #21

Open jsuchal opened 6 years ago

jsuchal commented 6 years ago

V RPO https://ekosystem.slovensko.digital/otvorene-data#rpo su vseliake duplicity a spinave data. Bolo by fajne spravit reporty, ktore vedia odhalit v akom rozsahu a ake chyby tam su. Pripadne to reportovat na statisticky urad. Napady na reporty:

Kto ma napad na dalsie nech doplni.

danielstaleiny commented 6 years ago

Pravnicke osoby co maku duplicitne IPO v tom istom casovom rozpati https://bi.ekosystem.slovensko.digital/question/178

jsuchal commented 6 years ago

Toto sice vyzera fajn, ale je tam este jedna haluz v RPO s ktoru treba ratat. Rovno odfiltruj vsetky rpo.organizations co maju source_register is null. Tie mozes ignorovat, su to pomocne data co sa pouzivaju niekde vo vypisoch ale nie su firma ako taka. Model som nevymyslel ja, stazovat sa treba za miliony eur uplne inde. :(

On Mon, May 14, 2018 at 11:52 PM Daniel Rafaj notifications@github.com wrote:

Pravnicke osoby co maku duplicitne IPO v tom istom casovom rozpati https://bi.ekosystem.slovensko.digital/question/178

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/slovensko-digital/ekosystem/issues/21#issuecomment-388975142, or mute the thread https://github.com/notifications/unsubscribe-auth/AABm5t92JREYeGAAfI7_8fFTHVS2lJYHks5tyfy1gaJpZM4TO9N_ .

ebalgava commented 6 years ago

Ku " Rovnake pravnicke osoby, rozne ICO/IPO." som spravila "RPO DQ Check - Organizations with multiple currently effective identifiers" https://bi.ekosystem.slovensko.digital/question/179

Tie ID-cka ktore nemaju v popise "Hodnota zodpovedá identifikátoru v zdroji." su teda vase interne? Kde najdem zdroj tychto dat?

ebalgava commented 6 years ago

Podobne ako pre organization_identifier_entries mi to vychadza aj pre organization_name_entries - RPO DQ Check - Organizations with multiple currently effective names https://bi.ekosystem.slovensko.digital/question/180 Na datach vidno ze sa lisia prevazne suffixom " v likvidácií" s neskorsim effective_from, co ma utvrdzuje v tom, ze predchadzajucim zaznamom sa neuzatvorilo effective_to po vytvoreni noveho zaznamu.

ebalgava commented 6 years ago

Ku "Pravnicke osoby co maju duplicitne ICO/IPO v jednom casovom okamihu." som spravila zoznam ICO dnes platnych u viacerych organizacii https://bi.ekosystem.slovensko.digital/question/181 (je ich vyse 16k z vyse 794k takze v metabase mi toto query prejde len s limitom na result) a ich agregat podla kombinacii zdrojovych registrov https://bi.ekosystem.slovensko.digital/question/182 Z vysledkov vidno, ze vacsina kombinovanych zastupeni v roznych registroch je zamerna - ako napr {"Register taxislužby","Živnostenský register"} alebo {"Register finančných agentov a finančných poradcov","Živnostenský register"}

Pri cisteni dat by som sa teda zamerala len na viacnasobne zastupenia v rovnakom registri alebo pri kombinovanych zastupeniach v roznych registroch len na tie zaznamy, ktore sa odlisuju aj v nazvoch.

jsuchal commented 6 years ago

@ebalgava toto je super! @pavolzbell kukaj na to, podla mna to prve je bug u nas. Tie kombinacie su zaujimave.

ebalgava commented 6 years ago

Organizacie s rovnakym ICO v rovnakom registri (teraz 85): https://bi.ekosystem.slovensko.digital/question/183

drndos commented 6 years ago

Adresy a ich časti by bolo vhodné napárovať na číselníkové hodnoty ideálne na NUTS https://sk.wikipedia.org/wiki/SK-NUTS To by mohlo v ďalších fázach výrazne zjednodušiť párovanie na základe adries, keďže sa mestá, ulice a podobne zapisujú rôznym spôsobom, je vhodné ich namapovať na jednoznačnú URI. Neviem ako ťaháte dáta z RPO, v zdrojovom systéme sa niekoré záznamy odkazujú na číselník (to treba využiť) a množstvo má "noncodelistdata" (to treba nejako napárovať) Veľmi cool by bolo pridať aj GPS súradnice ku adresám, dali by sa potom robiť pekné geospatial dopyty a vizualizácie.

jsuchal commented 6 years ago

@drndos Tahame to normalne z webu a tam pokial viem, ziadne taketo mapovanie neexistuje. Mozeme skusit vyziadat. V principe by tam malo byt mapovanie na register adries kde su aj gps koordinaty. Ale trosku mi unika realna pridana hodnota. Nakreslim sidla firiem na mapu a potom?

drndos commented 6 years ago

Napr. sa tak dá zistiť hustota štátnych zákaziek na nejakú oblasť a podobne. Alebo rôzne korelácie vzhľadom na vzdialenosť / lokalitu. Prípadne sa tak dajú robiť celkom pekné vizualizácie.

jsuchal commented 6 years ago

Toto uz robi verejne.digital a pravdu povediac nevidim tam velku pridanu hodnotu.

On Tue, May 29, 2018 at 9:28 AM Filip Bednárik notifications@github.com wrote:

Napr. sa tak dá zistiť hustota štátnych zákaziek na nejakú oblasť a podobne. Alebo rôzne korelácie vzhľadom na vzdialenosť / lokalitu. Prípadne sa tak dajú robiť celkom pekné vizualizácie.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/slovensko-digital/ekosystem/issues/21#issuecomment-392679350, or mute the thread https://github.com/notifications/unsubscribe-auth/AABm5pCgrYoVAuYFR6WeFq-Fhq2bfmFjks5t3PiSgaJpZM4TO9N_ .

pocelka commented 5 years ago

Ahoj,

Mohol by si prosim priblizit v kratkosti o co sa v tychto datach jedna? Ak mame s niecim pomoct bolo by dobre vediet minimalne:


Mam problem vytvorit novy report v tom BI riesni? Ked tam vlozim SQL, ktore mi na lokale funguje tak u Vas na webe mi to pise: "org.postgresql.util.PSQLException: ERROR: canceling statement due to statement timeout". Vies s tym nejako helfnut?

ebalgava commented 5 years ago

Zdroje su popisane vramci https://ekosystem.slovensko.digital/otvorene-data#rpo

Metabase BI mi zvykne hadzat timeout pri velkych resultoch - zvacsa staci limit na rows alebo znizit pocet zobrazovanych columns, najma pri dlhych textoch.

pocelka commented 5 years ago

@ebalgava 8 stlpcov vo vysledku mi nepride zrovna ako vela a limit nepomaha... Otazka je co je velky result, lebo do 10k riadkov nepovazujem za vela ...

ebalgava commented 5 years ago

napr v query https://bi.ekosystem.slovensko.digital/question/183 staci pridat hoci jeden zo zacommentovanych stlpcov ku aktualnym 3-om zobrazenym a uz mam timeout - pri 84 riadkoch

vitaj vo svete opensource a la metabase :) https://github.com/metabase/metabase/issues/625#issuecomment-317219458

jsuchal commented 5 years ago

Statement timeout je cisto limitacia, ze query musi skoncit do X sekund. S tym pocet riadkov/stlpcov suvisiet moze, ale ovela viac s tym suvisi query plan a indexovanie db. V skratke, ked tam odpalis nejake joiny a agregacie cez X tabuliek a ziadne rozumne constrainy, tak to do X sekund neskonci a tym padom to urezeme, aby nam to nevytazovalo server.

jsuchal commented 5 years ago

@pocelka - toto je register preberany zo statistickeho uradu. Data sa znazime drzat v modeli, ktory je blizky tomu oficialnemu (aj ked ten uplne nepozname, tak len podla responses ich API sudime co tam moze byt).

Pointou tejto ulohy je presne najst jednak chyby u nas (stane sa) a chyby v oficialnom registri. Chyby im hlasime aj na to reaguju. Opravy su niekedy horsie, kedze to z pravneho hladiska nie je uplne lahke zabezpecit.

pocelka commented 5 years ago

No ja som tie data loadol do lokalnej instancie z toho Vasho dumpu (indexy som zatial neriesil na lokale to zbieha v pohodicke) - robi sa mi lepie na lokale ako na nejakom webovom rozhrani. Zatial som spravil 2 query, ktore neviem nahodit do BI kvoli omedzeniam, ktore ste nastavili.

Vieme sa dohodnut, ze ti to nejako neposielam cez mail a kuknes na to? Zatial mam:

Add indexy / data. V tych tabulkach su trackovane aj historicke zmeny; napr. organization_name_entries obsahuje historiu zmien nazvov firmy. Neviem akym sposobom to plnite (increment / full load) ale mozno by nebolo od veci pridat nejaky stlpec indikujuci posledny zaznam v historii. akonahle potrebujem zistit posledny zaznam v historii tak vo finale mi aj tak sa to nabaluje. Pripadne po loade mozno viete spravit pre ucely DQ aspon nejake materializovane view a to oindexovat? Teda nie pre ucely dalsej distribucie dat avsak aby to nam pomohlo pri zistovani chyb?

Ja osobne mam rad denormalizovane data, kde vidim realne data pokope a nie len IDcka...

jsuchal commented 5 years ago

@pocelka ahoj, sorry za delay.

Nova info ktore mam je, ze duplicitne ico by nemalo existovat od 2005 roku. Vieme to overit?

Co sa tyka platneho zaznamu, tak to by mal byt ten co ma effective_to ako NULL.

ebalgava commented 5 years ago

@jsuchal mate toto uz zodpovedane? uz ked sa pozriem len na zaznamy s duplicitnym ICO vramci jedneho registra ktore oba vznikli od roku 2005, tak mi stale najde 16 duplicit, z coho vsetky vyzeraju nazvom alebo adresou na rovnake zaznamy, ktorych update bol asi omylom zaznamenany ako create noveho zaznamu: https://bi.ekosystem.slovensko.digital/question/186 8 z nich je pritom z OR SR, pricom 5 z nich vzniklo vramci 'Bratislava - mestská časť Ružinov', a 4 z toho za posledny rok: https://bi.ekosystem.slovensko.digital/question/187 tipla by som podla toho ze napr. v Ruzinove treba preskolit uradnika/ov ako robit update v rpo

LegalEngineering commented 5 years ago

Do tej metabase sa neviem nalogovat, tak nevidim o ktore subjekty ide, kazdopadne viem konkretne o jednej firme kde pri rozdeleni na nove spolocnosti bolo jednej novej spolocnosti pridelene totozne ICO ako spolocnosti, ktora zanikla zrusenim. Bola to chyba obchodneho registra BA I, kde sa taketo ukony zrejme vkladaju manualne, a teda vyssi sudny uradnik si nevsimol/neuvedomil, ze sice nastupnicka spolocnost ma rovnake meno a sidlo ako zanikajuca spolocnost, ale ide o pravne odlisny subjekt.. Zhodou okolnosti je to Ruzinov, tak tipujem, ze takychto pripadov mohlo byt viac. Pri klasickom zakladani spolocnosti som sa s duplicitnym ICO este nestretol, a to mi rukami presli stovky.

ebalgava commented 5 years ago

Vysledky queries som vyexportovala aby bolo vidno aspon o ktorych ICO hovorim: https://docs.google.com/spreadsheets/d/1rFJpE8fG6LDCiak9T15QXGluXK3iHkChc3ZMgtibtLc/edit?usp=sharing