okestonia / opendata-issue-tracker

Community effort to open up more and more data in Estonia
http://opendata.ee
48 stars 5 forks source link

Kraapida kinnisvaratehingute hinnad #218

Open andreskytt opened 5 years ago

andreskytt commented 5 years ago

Kraapida http://www.maaamet.ee/kinnisvara/htraru/ ja teha ühe failina kättesaadavaks vastavalt juhendile

taivop commented 5 years ago

@andreskytt mul huvi sarnast asja teha, võin collabida koodi ja vajadusel hostida scrapereid jm

ma ei suutnud kiiresti leida - kas seal on mingid kasutuspiirangud ka või ma võiksin tuimalt teha 100k queryt, igaüks nii detailselt kui võimalik?

taivop commented 5 years ago

Related: https://github.com/okestonia/opendata-issue-tracker/issues/36

Päringukeskkonna alusel andmete tekitamine ehk kõikvõimalik päringute pidev käivitamine, tulemuste andmebaasi salvestamine ja nende masinloetaval kujul avaldamine eeldab mahukat IT arendust.

Ma arvan, et selle mahuka IT-arenduse MVP saaks kerge nädalavahetuse-hackathoniga ära teha.

andreskytt commented 5 years ago

Mahupiirangu osas ei mäleta, et seal midagi peal oleks - vaevalt. Kuni sa ühe lõimega järjest küsid, siis vast suudab nende server ka ühe lõimega järjest vastata ja ei lähe katki. Esimese hooga võiks teha ühe tõmmise näiteks aastast 2015 nädalase resolutsiooniga. Siis ei pea kraapijat kuskile jooksma jätta, nood numbrid vaevalt et enam muutuvad.

taneljairus commented 5 years ago

Tegin ühe kraapija, mis võtab etteantud aasta nädalate kaupa ette ja tassib ühe asustusüksuse kaupa pessa: https://github.com/taneljairus/opendata-scrapers/blob/master/htraru.py

Väljundiks on esialgu iga aruande kohta üks JSON, mille nimi on formaadis EHAK_ARUANDEKOOD_ALGUS_LÕPP.json.

Näiteks: 0037_R01_2015-03-19_2015-03-25.json 0037 - Harju maakond R01 - Tehingud võõrandajate residentsuse kaupa 2015-03-19 - perioodi algus 2015-03-25 - perioodi lõpp

Kui 2015 ring on peal, siis vaatab kuidas nende JSONitega mõistlik edasi majandada on.

taivop commented 5 years ago

@taneljairus panid jooksma? Kui sul dump olemas, anna teada.

taneljairus commented 5 years ago

Ja olemas - https://tugi.maant.ee/tmp/scrapings_14082019.tar.gz Kõik 2015 aasta kinnisvaratehingud peaks sees olema. Nagu öeldud iga aruanne on eraldi JSON, kui faili pole, siis sellel nädalal sellises haldusüksuses tehinguid polnud. Positiivne on see, et hoolimata miljonist päringust ei kukkunud süsteem maha ja ära mind ka ei blokeeritud.

Nüüd on küsimus, mis nendega edasi teha. Kas peaks ühte suurde laia tabelisse koondama, ühendama sama haldusüksuse andmed või mingi kolmas variant? Ridu on umbes-täpselt nii palju, et Excel kogu pakiga hakkama ei saaks.

@andreskytt @taivop

andreskytt commented 5 years ago

Aga kuulaks klienti ehk? Teeks selle kraabuskiga andmehulga ära ja küsiks publikult, et kuidaspidi seda andmestikku parem konsumeerida oleks

taivop commented 5 years ago

Nõus @andreskytt .

@taneljairus äkki saad mingiks lihtsaks CSVks teha? Sealt edasi saab juba väga kergesti hackathonidel või tudengitele kätte anda, või lihtsalt ise mingi näidis-notebook teha nende andmete peal.

taneljairus commented 5 years ago

CSV tuleb kole lai, kui tahta lihtsalt teha. Tegin ühe suure (100MB) JSONi: https://tugi.maant.ee/htraru.json