aleksandrov2 / APPR-2015-16

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2015/16
MIT License
0 stars 0 forks source link

Dendrogram #8

Closed aleksandrov2 closed 8 years ago

aleksandrov2 commented 8 years ago

1.) V mapi analiza.r sem naredil dendrogram, zanima me kako naj ga preimenujem, da bo zgoraj namesto Cluster Dendrogram pisalo Razporeditev držav.

2.) Rad bi tudi, da bi se spodaj izbrisal napis d hclust(*,complete).

3.)Kako naj naredim, da bodo imena držav v enaki ravnini, ne pa kot sedaj ko je PRT zelo zgoraj in tudi druge države ne ležijo na isti vodoravni premici

4.)Zanimala bi me tudi povezava med dendrogramom, ki sem ga naredil in zemljevidoma, kjer sem podatke pogrupiral po skupinah zem3 in zem4. Čudno se mi zdi, da pri zem4 mi je vrglo v eno skupino Irsko, Francijo, Belgijo, Avstrijo in Madžarsko, medtem ko na dendrogramu so sicer države Irska, Francija in Belgija skupaj, vendar sta Avstrija in Madžarska popolnoma na drugem koncu. Torej ali nam Dendrogram nič ne pove o skupnih lastnostih ali kaj. Na predavanju smo ga malo omenili in povedali, da pove kako so si podatki različni, ampak zakaj je potem teh 5 držav v isti skupini. Prej bi pričakoval da so v eni skupini države Belgija, Francija, Irska, Slovenija, Španija, Velika Britanija, ker so na dendroogramu zelo skupaj.

jaanos commented 8 years ago

Naslov in podnaslov nastaviš s parametroma main in sub, želeno postavitev imen držav pa dosežeš s hang = -1:

plot(hc, main = "Razporeditev držav", sub = "", hang = -1)

Kar se tiče dobljene razporeditve, gre seveda tukaj za drugačen algoritem in so zato lahko tudi rezultati drugačni. Poglej si v pomoč za hclust - tam imaš na voljo še nekaj metod razvrščanja, ki jih lahko določiš s parametrom method.

aleksandrov2 commented 8 years ago

1.) Sem si pogledal method in sem poskusil vse, vendar nobena ne da take razporeditve kot zem4, ki jih je razdelil na 5 skupin. Vsaka metoda vsaj eno skupino popolnoma raztrga.

method the agglomeration method to be used. This should be (an unambiguous abbreviation of) one of "ward.D", "ward.D2", "single", "complete", "average" (= UPGMA), "mcquitty" (= WPGMA), "median" (= WPGMC) or "centroid" (= UPGMC).

Najbolj me preseneča, da niti metoda centroid ne da željenega rezultata. Namreč pri skupiini Portugalska, Španija, Slovenija, Velika Britanija, postavi POrtugalsko kar nekam stran? 2.) Sicer pa kako bi lahko pobarval imena držav oz z barvo označil neko skupino?

jaanos commented 8 years ago

Kot pravim, gre za drugačen algoritem, ki bo dal drugačne rezultate. Morda lahko iz tega sklepaš, da je 5 skupin preveč in bi morda raje poskusil s štirimi skupinami.

aleksandrov2 commented 8 years ago

Kako bi spodaj v dendrogramu barvno označil vsako skupino držav posebej, npr imena SVN, ESP, PRT, GBR da bi bile označene s svojo barvo?

jaanos commented 8 years ago

Če hočeš pobarvati oznake, si bo treba pomagati s knjižnico dendextend, npr.

library(dendextend)
n <- 4 # število skupin
dend <- as.dendrogram(hc, main = "Razporeditev držav", sub = "", hang = -1)
sk <- cutree(hc, k = n)
labels_colors(dend) <- rainbow(n)[sk][order.dendrogram(dend)]
plot(dend)

Lahko pa na dendrogram samo dorišeš pravokotnike okoli skupin:

rect.hclust(hc, k = n, border = rainbow(n))

Pazi sicer, da se barve skupin z eno in drugo metodo ne bodo ujemale, tako da se odloči za eno ali drugo.