aidiss / opendatagovlt

For open data in Lithuania
2 stars 1 forks source link

Atvirų duomenų portalas #7

Open sirex opened 9 years ago

sirex commented 9 years ago

Atvirų duomenų portalas

Čia yra surašyta bendra atvirų duomenų portalo vizija. Ši užduotis bus pabaigta, kai visos kitos, iš šios užduoties kylančios užduotys bus padarytos. Kai tai atsitiks, turėsime pilnai veikianti ir pabaigtą duomenų portalą.

Duomenų sinchronizavimo robotai

Šioje dalyje bus aprašomi robotai

Duomenų išrinkimo robotas

Robotai duomenų surinkimui. Kiek jų reikės?

Roboto darbo valdymas

Formatų palaikymas - Botas turi palaikyti keletą duomenų tipų. Tai csv, xls, xlsx, html ir t.t. Duomenų tikrinimas - Duomenys turi būti patikrinti, ar atitinka reikiama duomenų aprašymą. Duomenų normalizavimas - Duomenys normalizuojami, t.y. sudėliojami duomenų tipai (int, str, datetime ir t.t.) Saugojimas į saugyklą - Duoemnys saugomi į saugyklą.

Roboto darbo valdymas

Užduočių eilės valdymas - suprantu taip. Išorinis ir vidinis botas turi užduočių. Jie scrapina, crawlina, tvarko dokumentus ir t.t. Kartais gali atsitikti taip, kad vienu metu reikalinga paleisti du procesus. Tačiau šis valdytojas to neleidžia. Valdytojas parenka, kada koks procesas paleidžia, patikrina, ar užduotis įvykdytą sėkmingai, o tada leidžia kitą procesą. Klaidų apdorojimas - nesuprantu. Veiksmų registravimas į žurnalą - šis punktas man nėra aiškus. Loginami įvykiai(event), rezultatas kaip ir aiškus: logas failiuke arba duomenų bazėje.

Duomenų šaltinių sinchronizavimas

opendata.gov.lt

Naudojantis duomenų sinchronizavimo robotų karkasu, reikia sukurti opendata.gov.lt duomenų sinchronizavimo robotą. Kol kas opendata.gov.lt yra vienintelis IVPK reguliuojamas valstybinių duomenų katalogas. Į šį katalogą, apie savo turimus duomenis turi pateikti visos valstybinės įstaigos.

Galiausiai šie duomenys bus naudojami duomenų šaltinių ir duomenų tiekėjų dalyse.

Realiai ši užduotis negali būti pradėta, kol nėra padaryta duomenų sinchronizavimo robotų dalis. Tačiau, kadangi duomenų sinchronizavimo robotų dalis yra gan tolimas projekto etapas, o duomenų šaltinių duomenų reikia jau dabar, todėl ši dalis gali būti padaryta ir nenaudojant duomenų sinchronizavimo robotų funkcionalumo.

aidiss commented 9 years ago

Tai kiekvienai iš temų sukurti atskirą issue? Ar issue tik plačiom kategorijom, kuriose sukrenta keletas sub-kategorijų?

sirex commented 9 years ago

Šios užduoties tikslas, pateikti bendrą vaizdą apie visą projektą. Čia turėtų būti surašytos visos projekto dalys, tik labai abstrakčiai. Dirbant prie kažkokios vienos užduoties, tiesiog aiškiau, suprasti, kokį vaidmenį ta užduotis atlieka viso projekto rėmuose.

Tai kiekvienai iš temų sukurti atskirą issue?

Kol kas siūlau koncentruotis ties viena kokia nors sritimi. Kaip suprantu, tave labiausiai domina botų dalis. Todėl gali labai bendrai aprašyti botų skyrelį.

O dėl užduočių, reikia vadovautis tokia taisykle - viena užduotis turi būti padaroma maksimaliai per vieną - dvi dienas. Jei užduotis yra per didelės apimties, galimai truks ilgiau nei dvi dienas, tada ją reikia skaidyti į smulkesnes.

Kadangi visos temos turi būti labai abstrakčios, nedetalizuojant smulkmenų, tai realiai kiekviena tema turi turėti mažiausiai po vieną užduotį.

Ar issue tik plačiom kategorijom, kuriose sukrenta keletas sub-kategorijų?

Užduotis galima priskirti ir prie aukštesnių kategorijų ir prie sub-kategorijų. Svarbu, kad kategorija, kuriai priskirta užduotis atitiktų tai, kas aprašyta prie kategorijos.