robonomist / robonomistClient

https://robonomist.github.io/robonomistClient/
1 stars 0 forks source link

tidy_time =T laskee aineiston aika-muuttujan väärin #40

Open pskinnun opened 6 months ago

pskinnun commented 6 months ago

Jos käyttää tidy_time =T parametria niin vaikuttaa siltä että aika-sarake menee väärin jos aineistossa on ajassa epäjatkuvuus.

Aineistossa on alussa epäjatkuvuuskohta: vuosina 1910 ja seuraavat 1920-2023

tidy_time = T muuttaa aikasarjan jatkuvaksi vuodesta 1910 vuoteen 2014 (eli muuttaa 1920 -> 1911, 1921 -> 1912 jne)

df <- robonomistClient::data("luke/02_Maatalous/04_Tuotanto/22_Kaytossa_oleva_maatalousmaa/03_Peltoala_1910_ja_1920-.px", 
                       tidy_time = T,hash = Sys.time) 
df2 <- robonomistClient::data("luke/02_Maatalous/04_Tuotanto/22_Kaytossa_oleva_maatalousmaa/03_Peltoala_1910_ja_1920-.px") 

# Yhtä paljon havaintoja
length(df$time)
length(df2$Vuosi) 

# Viimeisin havainto eri
df |> pull(time) |> max() # 2014
df2 |> pull(Vuosi) |> max() # 2023

# Aineistossa on alussa epäjatkuvuuskohta: vuosina 1910 ja seuraava 1920 -2023
# tidy_time = T muuttaa aikasarjan jatkuvaksi vuodesta 1910 vuoteen 2014 (eli muuttaa 1920 -> 1911, 1921 -> 1912 jne)

bind_cols(df |> arrange(time, Laji), 
          df2 |> arrange(Vuosi, Laji)) |> view()
itkonen commented 6 months ago

Pahoittelut, virhe on Luken tietokannan px-tiedoston aikaulottuvuuden määritteessä. Samanlainen virhe on aiemminkin esiintynyt Luken tietokannassa. Pistin Lukelle viestiä asiasta. Aiemmin nämä on korjattu varsin nopeasti. Odotellessa ongelman voi kiertää esim. näin:


data("luke/02_Maatalous/04_Tuotanto/22_Kaytossa_oleva_maatalousmaa/03_Peltoala_1910_ja_1920-.px", 
         tidy_time = FALSE)  |> 
    mutate(time = lubridate::make_date(Vuosi))
´´´