gapo8 / APPR-2020-21

Vzorčni repozitorij za projekt pri predmetu Analiza podatkov s programom R v študijskem letu 2020/21
MIT License
0 stars 0 forks source link

Uvoz #2

Open jaanos opened 3 years ago

jaanos commented 3 years ago

Vidim, da podatke uvoziš iz Excelovih razpredelnic za vsako leto - te potem združiš, pri čemer pa izgubiš podatek o tem, na katero leto se nanaša posamezna vrstica. Pravzaprav bi lahko celoten uvoz združil:

osebni_podatki_skupni <- lapply(2000:2019,
                                function(leto)
    sprintf("podatki/osebni_podatki%d_%d.xlsx",
            leto, leto+1) %>%
    read_excel(col_types=c("text", "numeric")[c(1, 1, 2, 1, 2, 1, 1, rep(2, 8), rep(1, 5))]) %>%
    mutate(YEAR=leto)) %>% bind_rows() %>%
  separate(HEIGHT, c("FEET", "INCHES"), sep="-", remove=FALSE) %>%
  mutate(HEIGHT=12*parse_number(FEET) + parse_number(INCHES)) %>%
  select(-FEET, -INCHES)

Tukaj je poskrbljeno še za pretvorbo višin v števila (v palcih). Lahko bi poskrbel še, da se procenti prav tako pretvorijo v števila - če pa lahko te podatke izpelješ iz drugih, jih raje kar izpusti. Tudi popravke imen držav bo najbolje narediti kar v tej razpredelnici.

S takimi podatki bo sedaj lažje prešteti igralce po letih:

stevilo_igralcev_na_leto <- osebni_podatki_skupni %>% group_by(YEAR) %>% summarise(stevilo=n())