Open apoikola opened 13 years ago
Kiitos ehdotuksesta, mainitsemasi virallinen puolu- ja ehdokaslista löytyy Vaaliraapijan aineisto-kansiosta nimellä e2011ehd.xls ja e2011ehd.csv. Tämä toimii viitteenä kun ohjelma laskee kokonaisehdokasmäärillä jotain. Nyt aineistokansiosta löytyy myös tiedosto "data_yhdistelmä.csv", jossa on kuvailemasi ehdokaslistan ja ennakkoilmoitusdata yhdistelmä. Valitettavasti VTV:n ennakkoilmoitussivuilla ehdokkaat käyttävät koko nimeään kun taas ehdokaslistassa on vain kutsumanimi. Käytin yhdistämisessä vain 1. nimeä, koska en tiedä kunkin ehdokkaan kutsumanimeä. Ongelman voisi kiertää vertailemalla useampien kenttien tietoja, mutta tämän toteutus joutuu nyt odottamaan. Näin ollen yhdistelmässä on nyt 2405 tietuetta 2315 sijaan.
Etunimen pudottaminen pois yhdistämistiedoista karsi duplikaatteja pois aika paljon, nyt data_yhdistelmä.csv-tiedostossa on enää 9 ylimääräistä tietuetta syystä tai toisesta,
Ilmeisesti VTV:llä ei ole ehdokasnumeroita missään päin sivujaan esillä?
Itse tein vaalikonedatoihin ehdokasnumero+vaalipiirinnumero yhdistelmästä uniikin id:n. Muistan, että sama etunimi + sukunimi yhdistelmiä oli ehdokkaiden joukossa kyllä useampiakin, jopa samojen puolueiden sisällä (ainakin vasemmistoliitolla). Jos ottaa vaalipiirin mukaan, niin luulisi jo riittävän.
Mun blogissa jo tuttu kokoomuslainen kävi hermostumassa ;)
http://www.ehdolla.org/2011/04/vaalirahailmoitukset-ladattavana-datana/#comments
-Jogi
On 04/16/2011 01:05 PM, jlehtoma wrote:
Etunimen pudottaminen pois yhdistämistiedoista karsi duplikaatteja pois aika paljon, nyt data_yhdistelmä.csv-tiedostossa on enää 9 ylimääräistä tietuetta syystä tai toisesta,
Jep, ehdokasnumerot tosiaan puttuvat VTV:n sivuilta. Oma koodini yhdistää aineistot vaalipiirin, sukunimen, kunnan ja puoluelyhenteen avulla. Ammatti näyttäisi toimivan kanssa ihan ok.
Oho! Ehkä kannattaisi käydä EsaT:kin ihmettelemässä tosiaan siellä omassa puoluetoimistossaan!
Datan jatkokäsittelyä ja yhdistelyä muihin datoihin helpottaisi, jos vaalirahoitusilmoitukset ehdokkaittain ja puolueittain ilmoitettaisiin Oikeusministeriön julkaisemien täydellisten ehdokas- ja puoluelistausten mukaisesti. Ne, jotka eivät ole ilmoittaneet näkyisivät datassa tyhjinä riveinä.
Ehdokkaita 2315 kpl Puolueita (valitsijayhdistyksen mukana) 32 kpl
Datat löytyy muunmuassa täältä: http://www.ehdolla.org/2011/04/oikeusministerio-hesari-scraping/