Closed jaanos closed 9 years ago
Sem popravil vse, pri državah, ki so imela več imen, sem jih popravil oziroma posodobil, tako da imajo vse države sedaj samo eno ime ter sem odstranil stolpec "Country.or.territory" ter pustil te podatke v row.names.
Pri uvozu iz HTML brišeš stolpec s pomočjo zanke
for
. Namesto tega raje uporabilapply
(ta deluje enako kotsapply
, le da ne poskuša pretvoriti dobljenega seznama v vektor):Ko čistiš podatke v četrtem stolpcu, navedeš celotno abecedo v regularnem izrazu znotraj oglatih oklepajev. Krajše in bolj pregledno bo, če to enostavno navedeš kot
a-z
(to sicer ne zajame šumnikov, ampak teh najbrž nimaš).Namesto, da na roko zamenjuješ datume z opombami, se lahko že sproti znebiš vseh opomb tako, da nekoliko spremeniš funkcijo
stripByPath
:Pri enem od datumov sta sicer dan in mesec zamenjana, pri drugem pa manjka dan v mesecu, tako da ju bo treba vseeno nadomestiti na roke.
Da se znebiš znakov na začetku v prvem stolpcu, raje z
gsub
poreži vse, kar ni črka:V nekaterih vrsticah je sicer navedenih več držav (pri Veliki Britaniji in v primerih, ko se je ime države spremenilo) - te primere bo najbolje kar na roko zamenjati. Glede na to, da imena držav uporabljaš že za imena stolpcev, jih lahko tudi izpustiš iz razpredelnice kot poseben stolpec.