katjamarina / APPR-2017-18

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2017/18
MIT License
0 stars 0 forks source link

Grafi #2

Closed katjamarina closed 6 years ago

katjamarina commented 6 years ago

Imam vprašanje glede grafov in zemljevida. V graf sem vključila podatke vseh držav, vendar ne vem, ali je le teh v grafu preveč. Je tako v redu, ali bi bilo bolje, da v vizualizaciji zožim izbor le na npr. vodilnih 10 držav?

jaanos commented 6 years ago

Vsekakor je bolje, da je graf pregleden, kot pa da je na njem veliko podatkov. Omejitev na vodilnih 10 držav bo torej povsem smiselna.

katjamarina commented 6 years ago

Hotela sem narediti dva grafa, v enem bi bili podatki o deležu zaposlenih žensk, v drugem pa moških, vendar jih ne znam izvzeti iz skupne tabele, da bi dobila dve tabeli podatkov, ki bi jih uporabila za graf, in jih urediti po deležu.

katjamarina commented 6 years ago

Razmišljala pa sem tudi, da bi namesto da naredim 10 vodilnih držav, združila države po delih Evrope(Severna, Srednja, Južna, ...)?

jaanos commented 6 years ago

Morda bo najbolje, če podatke prikažeš na dveh grafih z istimi lestvicami, npr.

ggplot(procenti %>% filter(drzava %in% c("Slovenia", "Croatia", "Italy")),
       aes(x = leto, y = delez, color = drzava)) + geom_line() + geom_point() +
  facet_grid(~ spol)

Kar se tiče združevanja po regijah, se moraš vprašati, kaj natanko to pomeni. Tukaj imaš deleže, kar pomeni, da jih ne bo mogoče enostavno sešteti, pač pa bi morala poznati tudi velikost relevantne populacije v vsaki državi za vsako leto, in iz tega izračunati nov delež. Zato bo lažje, da enostavno prikažeš podatke za izbrane države.

katjamarina commented 6 years ago

Hvala. Imam še eno težavo, pri risanju zemljevida mi dela težave stolpec drzava, saj mi v funkciji javlja napako: Column drzava/SOVEREIGNT joining character vector and factor, coercing into character vector, ki je ne znam odpraviti.

jaanos commented 6 years ago

To ni napaka - gre samo za opozorilo, da sta navedena stolpca različnih tipov, zato se opravi pretvorba v znakovni vektor. Pri velikih tabelah zna to biti počasneje - če to ni problem, potem lahko pustiš, kot je (v glavo bloka kode v poročilu, kjer kličeš vizualizacija.r - in po potrebi še drugod - pa dodaj parameter warning = FALSE, da se ti ta opozorila ne izpisujejo v poročilo).

Lahko pa stolpec z imeni držav nadomestiš s faktorjem, ki ima iste vrednosti kot stolpec v zemljevidu, po katerem združuješ, npr.

gdp$drzava <- parse_factor(gdp$drzava, levels(zemljevid$NAME_LONG))

Če bi isto poskusila s SOVEREIGNT namesto NAME_LONG, bi dobila opozorila, da je bila vrednost Czech Republic nadomeščena z NA. Zato raje združuj po stolpcu NAME_LONG, saj se imena držav v tem stolpcu ujemamo z imeni v tvojih podatkih.