jakov-kavcic / APPR-2015-16

JKRepozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2015/16
MIT License
0 stars 0 forks source link

XML #4

Open jakov-kavcic opened 8 years ago

jakov-kavcic commented 8 years ago

Živjo, vem da sem pozen z tem problemom vendar sem našel ene super podatke, ki bi jih rad uporabil vendar ne vem kako jih izvozit iz spletne strani, oz. če sploh lahko. spletna stran: http://www.pordata.pt/en/DB/Europe/Search+Environment/Table/5692615 če v html dokumentu poiščete:

jaanos commented 8 years ago

Vir je seveda primeren. Najlažje bo, če podatke izvoziš v Excel (na levi imaš možnost Export to Excel), potem pa shraniš kot CSV in uvoziš podatke v taki obliki. Sicer pa izgleda, da bi se podatke dalo lepo uvoziti tudi neposredno iz spletne strani z uporabo rvest.

jakov-kavcic commented 8 years ago

Uspelo mi je uvoziti tabelo vendar sedaj imam težave z pretvorbo meritev v numerične vrednosti. z tabelami edu_1/2/3 in income sem to naredil z edu_1 <- sapply(edu_1,as.numeric). Zakaj to ne bi delovalo na tabeli "tabela" (v skripti xml+.r)?

jaanos commented 8 years ago

V razpredelnici tabela imaš vejice kot ločila tisočic, kar as.numeric ni všeč. Najlažje bo, če takoj po uvozu enostavno pobrišeš vse neštevilske znake in potem pretvoriš v števila:

tabela <- apply(tabela, 2, . %>% {gsub("[^0-9]", "", .)} %>% as.numeric()) %>% data.frame()