jan248 / APPR-2018-19

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2018/19
MIT License
0 stars 0 forks source link

Dokončan projekt #3

Open jan248 opened 5 years ago

jan248 commented 5 years ago

Pozdravljeni.

Dokončal sem projekt. Mi lahko pogledate, če je vse v redu.

Lep pozdrav Jan Škoberne

jaanos commented 5 years ago

Poročilo se prevede, tako da bom dodal povezavo na repozitorij za zagovore. Če se še nisi, se lahko z @alenFMF domeniš za termin zagovora. Če boš do takrat še kaj spreminjal, mi javi, da posodobim povezavo.

Imam pa še nekaj komentarjev.

jan248 commented 5 years ago

Pozdravljeni.

Če v funkciji uvozi zemljevid spremenim encoding v UTF-8 mi še vedno ne prebere šumnikov tako kot bi mi jih moralo. Kar se tiče legende na grafu ne znam popraviti teh dodatnih pik, ker mi teh pik tudi ne zazna. Ko odprem tabelo z notepadom tudi ne opazim nobenih pik ali problemov. Prosil bi še za pomoč pri izdelavi mojih clustrov. Sedaj sem popravil moje podatke, da vsebujejo Obalno-kraško regijo a sedaj mi funkcija fit javlja problem, ki ga ne razumem. Hvala za pomoč. Jan

MarvinHerzog commented 5 years ago

Pozdravljen,

meni uvoz zemljevida praivlno prebere šumnike, če v uvozi.zemljevid določim encoding.

>Slovenija <- uvozi.zemljevid("http://biogeo.ucdavis.edu/data/gadm2.8/shp/SVN_adm_shp.zip",
                              "SVN_adm1", encoding = "UTF-8") %>% fortify()

> Slovenija$NAME_1 %>% unique
 [1] Gorenjska             Goriška               Spodnjeposavska       Zasavska              Jugovzhodna Slovenija
 [6] Koroška               Notranjsko-kraška     Obalno-kraška         Osrednjeslovenska     Podravska            
[11] Pomurska              Savinjska    

Pike se pojavijo, ker funkcija read.csv2 skuša popraviti imena s pomočjo funkcije make.names, ki pretvori character spremenljivke v R-sintaktično pravilna imena. Med drugim to pomeni, da presledke zamenja s pikami. Temu se lahko izogneš tako, da na začetku uvozitev.r v vrstici ocena.stanovanj.gradnja <- read.csv2( ... ) dodaš parameter check.names = FALSE. Alternativno lahko uporabiš funkcijo read_csv2 iz paketa readr z dodanim parametrom locale = locale(encoding="windows-1250").

Napaka v funkciji fit: Error in colMeans(x, na.rm = TRUE) : 'x' must be numeric, se pojavlja zato, ker morajo za izračun povprečij stolpcev (colMeans) vsi stolpci biti tipa numeric. Če pogledaš tipe stolpcev tabele, ki jo podajaš v fit:

> regije1 %>% glimpse
Observations: 12
Variables: 60
$ `2008.x`     <fct> 25, 35, 32, 31, 27, 30, 30, 34, 29, 24, 36, 39
$ `2009.x`     <fct> 26, 35, 38, 32, 28, 28, 31, 29, 30, 39, 33, 47
$ `2010.x`     <fct> 29, 37, 37, 32, 34, 31, 34, 44, 26, 30, 35, 34
$ `2011.x`     <fct> 34, 41, 41, 30, 42, 32, 33, 40, 27, 45, 36, 41
$ `2012.x`     <fct> 29, 39, 38, 30, 32, 29, 30, 34, 27, 38, 33, 37
$ `2013.x`     <fct> 25, 31, 28, 24, 32, 26, 27, 31, 23, 37, 29, 27
$ `2014.x`     <fct> 28, 37, 34, 22, 43, 28, 30, 37, 23, 40, 26, 33
$ `2015.x`     <fct> 25, 33, 30, 16, 27, 24, 30, 35, 28, 24, 26, 27
$ `2016.x`     <fct> 22, 30, 21, 17, 23, 20, 26, 35, 28, 21, 23, 32
$ `2017.x`     <fct> 18, 32, 22, 14, 26, 19, 25, 32, 29, 23, 23, 34
$ `2008.y`     <int> 3, 6, 8, 7, 10, 4, 9, 9, 8, 5, 7, 11
$ `2009.y`     <int> 3, 4, 8, 5, 8, 4, 6, 6, 8, 12, 5, 9
$ `2010.y`     <int> 5, 5, 9, 5, 7, 5, 6, 6, 7, 4, 8, 8
$ `2011.y`     <int> 4, 4, 6, 5, 11, 5, 8, 6, 9, 12, 5, 13
$ `2012.y`     <int> 7, 8, 7, 5, 9, 6, 9, 4, 7, 5, 8, 21
...

Prvih nekaj stolpcev je tipa factor, kar ni ustrezno. To lahko popraviš tako, da pred fit dodaš vrstico regije1=regije1 %>% sapply(parse_integer) %>% as.data.frame(), ki ti jih bo pretvorila nazaj v integer tip. Še bolj pravilno bi bilo, da to storiš že v izvorni tabeli, torej v slabo.stanje kjer so stolpci napačnega tipa zaradi odstranitve tekstovne vrstice.