MatevzKopac / APPR-2019-20

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2019/20
MIT License
0 stars 0 forks source link

Težave z grafi #2

Open MatevzKopac opened 3 years ago

MatevzKopac commented 3 years ago

Rstudio prikazuje grafe kot tabele, možno da je problem v paketu ggplot, saj mi je javljalo napako v povezavi s tem paketom.

MatevzKopac commented 3 years ago

Pozdravljeni, imam nekaj težav z grafom. Pri graf1 in graf2 mi ne uspe dobiti lepega tortnega diagrama. Pri grafu tri je predstavitev grafa čudna, saj gre graf tako vo pozizivno kot v negativno smer v istem stolpcu.

jaanos commented 3 years ago

Tortni diagram lahko dobiš npr. tako:

graf2 <- ggplot(tabela2, aes(x="", y=Zaposleni, fill=DEJAVNOST)) +
  geom_col(width=1) + coord_polar(theta="y") +
  theme_bw() + xlab("") +
  scale_fill_discrete(labels=function(x) str_wrap(x, width=15)) +
  ggtitle("Zaposleni glede na dejavnost")

Kar se tiče graf3, gre za to, da imaš za vsak kraj in leto več podatkov - ti se kopičijo v vsakem stolpcu, a negativni in pozitivni podatki se kopičijo v različne smeri. Če želiš prikazati skupne profite, torej poskrbi, da podatke ustrezno sešteješ. Verjetno bo sicer bolj pregledno, če namesto stolpčnega diagrama prikažeš črtni graf s črto za vsako mesto, npr.

ggplot(dobicek_regija %>% group_by(leto, KRAJ) %>% summarise(Profit=sum(Profit)),
       aes(x=parse_number(leto), y=Profit / 1e6, color=KRAJ)) + geom_line() +
  theme_bw() + ylab("Profit v milijonih €")

Sicer pa svetujem, da poskrbiš, da je že takoj po uvozu čim več podatkov pravilno prebranih, npr.

moji_podatki <- read_delim("podatki/goli_podatki.csv",
                           ";", escape_double=FALSE, trim_ws=TRUE,
                           locale=locale(encoding="windows-1250",
                                         decimal_mark=",", grouping_mark="."),
                           col_types=cols(DATUM_UVOZA=col_date(format="%d.%m.%Y"),
                                          `Osnovna sredstva 2018`=col_number()),
                           na=c("#VALUE!", "/", "0", "", "-", "ni podatka"), # ali je 0 res manjkajoč podatek?
                           n_max=632)

Vprašaje v določenih stolpcih potem nadomeščaš s č - če imaš to možnost, bo bolje, da ponovno generiraš datoteko s podatki (sklepam, da jo izvoziš iz Excela) tako, da bodo znaki pravilni. Da v zgornjem primeru ne bo potrebno uporabiti parse_number za leta, pa za pretvorbo poskrbi že po tem, ko jih pridobiš iz imen stolpcev z gather (pri tem ni potrebno brisati preostanka imena, saj zna parse_number iz njega izluščiti število).