nastja88 / APPR-2017

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2016/17
MIT License
0 stars 0 forks source link

Uvoz in poročilo #3

Closed jaanos closed 7 years ago

jaanos commented 7 years ago

Pri branju števil v razpredelnici tobak pride do napake, saj v stolpcih moski in zenske iščeš neprazen niz številskih znakov. Ker pa imaš tudi manjkajoče podatke, ti unlist() vrne prekratek vektor, zaradi česar pride do napake. Da se ji izogneš, raje išči vzorec ^[0-9. ]* - tako bo pri manjkajočih podatkih našlo prazen niz, ki ga parse_number spet pretvori v manjkajoč podatek.

Funkcija melt pri meni ne deluje pravilno, saj si uvozila knjižnico reshape. Namesto nje raje uvozi knjižnico reshape2 - sam sem moral ponovno odpreti projekt, da se je znova postavilo okolje. Funkciji melt lahko podaš tudi parametra variable.name in value.name, ki določata imeni stolpcev s kategorijo (v tvojem primeru spol) in vrednostjo. Seveda bo potrebno v obliko tidy data pretvoriti tudi razpredelnici alkohol in worldbank.

Da se izogneš navajanju dolgih imen stolpcev, ki jih hočeš pobrisati, raje izberi želene stolpce s funkcijo select iz knjižnice dplyr, ki omogoča indeksiranje s številkami in hkratno preimenovanje. Celoten uvoz lahko torej narediš tako:

tabela <- stran %>% html_nodes(xpath="//table[@class='wikitable sortable']") %>% 
  .[[1]] %>% html_table(dec = ".") %>% select(drzava = 1, dopust = 5) %>% drop_na(dopust)

Za funkcijo drop_na potrebuješ knjižnico tidyr - sicer bi šlo tudi s kombinacijo filter in is.na, kot že imaš.

V poročilo napiši še nekaj o svoji temi, podatkovnih virih in uvozu podatkov. Da ti ga bo prevedlo, pobriši del, ki je ostal iz vzorca - boš sproti potem dodajala svojo vsebino. Lahko tudi izpišeš del katere izmed uvoženih razpredelnic oziroma iz njih izrišeš kakšen graf (primera sta že v poročilu).