Open andreskytt opened 5 years ago
@andreskytt mul huvi sarnast asja teha, võin collabida koodi ja vajadusel hostida scrapereid jm
ma ei suutnud kiiresti leida - kas seal on mingid kasutuspiirangud ka või ma võiksin tuimalt teha 100k queryt, igaüks nii detailselt kui võimalik?
Related: https://github.com/okestonia/opendata-issue-tracker/issues/36
Päringukeskkonna alusel andmete tekitamine ehk kõikvõimalik päringute pidev käivitamine, tulemuste andmebaasi salvestamine ja nende masinloetaval kujul avaldamine eeldab mahukat IT arendust.
Ma arvan, et selle mahuka IT-arenduse MVP saaks kerge nädalavahetuse-hackathoniga ära teha.
Mahupiirangu osas ei mäleta, et seal midagi peal oleks - vaevalt. Kuni sa ühe lõimega järjest küsid, siis vast suudab nende server ka ühe lõimega järjest vastata ja ei lähe katki. Esimese hooga võiks teha ühe tõmmise näiteks aastast 2015 nädalase resolutsiooniga. Siis ei pea kraapijat kuskile jooksma jätta, nood numbrid vaevalt et enam muutuvad.
Tegin ühe kraapija, mis võtab etteantud aasta nädalate kaupa ette ja tassib ühe asustusüksuse kaupa pessa: https://github.com/taneljairus/opendata-scrapers/blob/master/htraru.py
Väljundiks on esialgu iga aruande kohta üks JSON, mille nimi on formaadis EHAK_ARUANDEKOOD_ALGUS_LÕPP.json.
Näiteks: 0037_R01_2015-03-19_2015-03-25.json 0037 - Harju maakond R01 - Tehingud võõrandajate residentsuse kaupa 2015-03-19 - perioodi algus 2015-03-25 - perioodi lõpp
Kui 2015 ring on peal, siis vaatab kuidas nende JSONitega mõistlik edasi majandada on.
@taneljairus panid jooksma? Kui sul dump olemas, anna teada.
Ja olemas - https://tugi.maant.ee/tmp/scrapings_14082019.tar.gz Kõik 2015 aasta kinnisvaratehingud peaks sees olema. Nagu öeldud iga aruanne on eraldi JSON, kui faili pole, siis sellel nädalal sellises haldusüksuses tehinguid polnud. Positiivne on see, et hoolimata miljonist päringust ei kukkunud süsteem maha ja ära mind ka ei blokeeritud.
Nüüd on küsimus, mis nendega edasi teha. Kas peaks ühte suurde laia tabelisse koondama, ühendama sama haldusüksuse andmed või mingi kolmas variant? Ridu on umbes-täpselt nii palju, et Excel kogu pakiga hakkama ei saaks.
@andreskytt @taivop
Aga kuulaks klienti ehk? Teeks selle kraabuskiga andmehulga ära ja küsiks publikult, et kuidaspidi seda andmestikku parem konsumeerida oleks
Nõus @andreskytt .
@taneljairus äkki saad mingiks lihtsaks CSVks teha? Sealt edasi saab juba väga kergesti hackathonidel või tudengitele kätte anda, või lihtsalt ise mingi näidis-notebook teha nende andmete peal.
CSV tuleb kole lai, kui tahta lihtsalt teha. Tegin ühe suure (100MB) JSONi: https://tugi.maant.ee/htraru.json
Kraapida http://www.maaamet.ee/kinnisvara/htraru/ ja teha ühe failina kättesaadavaks vastavalt juhendile