rte-antares-rpackage / antaDraft

2 stars 0 forks source link

mauvaise date et ligne "dupliqué" lors de l'import #33

Closed jalazawa closed 6 years ago

jalazawa commented 6 years ago

J'ai constaté des lignes dupliquées sur les données importées.

Après quelques recherche, il semble que la ligne n'est pas vraiment dupliqué mais une erreur dans l'heure semble provoquée la duplication et la suppression d'une autre ligne.

Par exemple, si je fais ceci

load_db <- anta_load_read(perso_data)

load_db_dt<-as.data.table(load_db)
resIdsLoadDb<-load_db_dt[, .(country, MapCode, AreaTypeCode, DateTime) ]
indexDuplicatedLoadDv<-which(duplicated(resIdsLoadDb) | duplicated(resIdsLoadDb[nrow(resIdsLoadDb):1, ])[nrow(resIdsLoadDb):1])
load_db_dt[indexDuplicatedLoadDv, ] %>% View("duplicated_rows_db")
load_db_dt[MapCode=="LU" & AreaTypeCode=="CTA" & (DateTime=="2015-03-29 01:00:00"| DateTime=="2015-03-29 02:00:00" | DateTime=="2015-03-29 00:00:00" | DateTime=="2015-03-29 03:00:00"), ] %>% View("duplicated_rows_db_lu")

j'obtiens ce tableau

bug_duplication_lignes

Mais sur les fichiers du FTP je constate ceci

bug_duplication_lignes_ok_ftp

On constate alors que la deuxième ligne à "01:00" et en fait la ligne correspondant à la donnée à "02:00".

Dans le tableau sur R, sur la ligne 3, on devrait lire la date suivante "2015-03-29 02:00:00" correspondante à la valeur 369.

J'ai aussi constaté qu'il y'a 262 lignes dupliquées dans les données importées.

On devrait faire une vérification lors de l'import (un assert dans le code ?) afin de s'assurer qu'il n'y a pas de lignes dupliquées dans la table.

FabiolaAravena commented 6 years ago

J'ai le même problème de duplication de lignes pour CTA, CTY et BZN pour AUSTRIA, GERMANY et FRANCE. La seule différence est que la ligne dupliquée est à "02:00".

AUSTRIA : Les données sur Rstudio :

ligne_duplique_austria_0200_rstudio

Sur le FTP :

ligne_duplique_austria_0200

GERMANY :

Les données sur Rstudio :

33_ligne_duplique_germany_0200_rstudio

Sur le FTP :

33_ligne_duplique_germany_0200_ftp

FRANCE :

Les données sur Rstudio :

33_ligne_duplique_france_0200_rstudio

Sur le FTP :

33_ligne_duplique_france_0200_ftp

jalazawa commented 6 years ago

C'est ok pour moi et toi @FabiolaAravena ?

davidgohel commented 6 years ago

Attention quand on subset une date posixct, vous pouvez utiliser la fonction suivante si nécessaire:

as_ct <- function(str) fasttime::fastPOSIXct(str, tz = "GMT")
FabiolaAravena commented 6 years ago

C'est ok pour moi aussi!