M4rble / APPR-2019-20

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2019/20
MIT License
0 stars 0 forks source link

imena držav #4

Closed M4rble closed 4 years ago

M4rble commented 4 years ago

Ali je nujno, da so imena držav v tabelah v slovenščini, ter če da, ali obstaja način, da bi enkrat v dokumentu nastavil imena držav na slovenska (ker bodo vedno poimenovana enako, ker bom vse podatke pridobil iz eurostata), da jih ni treba spreminjati za vsako tabelo posebej?

jaanos commented 4 years ago

Zaželeno je, da so imena v slovenščini. V ta namen si lahko pripraviš slovar prevodov, npr.

slovar <- c("Slovenia"="Slovenija",
            "Croatia"="Hrvaška",
            ...)

Potem lahko pri prikazu podatkov zamenjaš imena - recimo, da imaš v razpredelnici podatki imena držav v stolpcu drzava:

podatki %>% mutate(drzava=slovar[drzava])
M4rble commented 4 years ago

Hvala za odgovor. Pa je za slovar pomembno v kateri mapi je, ali mora biti v tej mapi s podatki, ali je lahko v kakšni drugi, oziroma kje ga je priporočljivo narediti?

jaanos commented 4 years ago

Pomembno je le, da je nekje v kodi, preden se ga uporabi. Lahko ga daš npr. na začetek vizualizacije - ali pa narediš nov program s slovarjem, ki ga vključiš s source.

M4rble commented 4 years ago

Sem poskusil narediti tako, da sem ga dal na začetek vizualizacije, vendar se popravljene tabele pokažejo le v konzoli, ko jih odprem iz Data v Environmentu pa imajo še vedno angleška imena. Se da to kako popraviti?

Poleg tega sem sedaj končal z uvažanjem in čiščenjem podatkov v programu in me zanima, če bi lahko si samo pogledali moj projekt in preverili, če je vse v zvezi s tem (2. fazo) primerno oziroma, če imate kakšen nasvet/če so kakšne stvari, ki bi jih moral popraviti preden se lotim 3. faze.

katarinabrilej commented 4 years ago

Da se bodo imena spremenila tudi v shranjeni razpredelnici, moraš dejansko popraviti razpredelnico, torej

dostop_do_interneta <- dostop_do_interneta %>% mutate(drzava=slovar[drzava])

namesto

dostop_do_interneta %>% mutate(drzava=slovar[drzava])

Sicer pa lahko enako kot s slovarjem za preimenovanje držav narediš tudi preimenovanje kategorije razlogi_za_ne_dostopanje_do_interneta v razpredelnici dostop_do_interneta (Podobno v drugih razpredelnicah, kjer je veliko preimenovanj istega stolpca). Ni nujno, samo morda je bolj pregledno. V imenih stolpcev je bolje, če se izogibaš presledkom, recimo namen uporabe v razpredelnici namen_uporabe_interneta_za_komunikacijo_z_drzavo lahko preimenuješ v npr namen.uporabe, pa tudi stolpec nivo znanja v razpredelnici digitalno_znanje. Kjer v stolpcu ni podatka, namesto ni podatka raje popravi v NA oz. še boljše, da kar pri branju csv datoteke nastaviš kaj predstavlja manjkajočo vrednost

razlogi_za_ne_dostopanje_do_interneta <- read_csv("podatki/razlogi.csv", 
col_names=c("razlog", "drzava", "leto", "odstotki", "total", "delez"),
skip=1, na=":", locale=locale(encoding="Windows-1250"))

torej na=":", namesto na="-".

jaanos commented 4 years ago

Mogoče bi opomnil še, da ni nujno, da spremeniš imena držav v samih podatkih - pomembno je, da so v poročilu prikazana prevedena imena.

M4rble commented 4 years ago

Sem popravil, najlepša hvala za pomoč.