InseeFrLab / utilitR

Source of the utilitR French R documentation
https://book.utilitr.org/
Other
71 stars 55 forks source link

Restructuration de la partie manipulations de données ? #499

Open linogaliana opened 7 months ago

linogaliana commented 7 months ago

Suite à la remarque de @pierre-lamarche sur tchap, je propose de prolonger le débat ici.

Contexte

Remarque de Pierre:

avec la fiche arrow on utilise la grammaire tidyverse, mais on manipule des objets un peu différents Du coup j'ai peur que les lecteurs soient perdus Il faut faire quoi, dans quel contexte ? ça j'ai du mal à le trouver On est très orienté outil, pas tellement cas d'usage et donc on va satisfaire le lecteur curieux qui veut se rencarder sur arrow, mais on ne lui dit pas trop quand ça a du sens de s'en servir

Ma réponse :

je suis assez d'accord avec toi, surtout qu'a priori va s'ajouter un autre framework qui est duckdb faut peut-être repenser cette partie de la documentation comme un bloc séparé avec une introduction présentant quel framework utiliser selon les cas

Proposition

Quelque chose comme ça ?

Choisir son cadre d'analyse des données avec R

Introduction
16  Manipuler des données avec le tidyverse
17  Manipuler des données avec data.table
18  Manipuler des données avec arrow
19  Manipuler des données avec duckdb (à voir si 2 fiches ou 1 seule)

Manipuler des données avec R, en pratique

20  Manipuler des données textuelles
22  Manipuler des données spatiales
19  Joindre des tables de données
21  Utiliser des données d’enquêtes
23  L’analyse de données (ACP, ACM, ACF…)

Proposition ouverte à discussion !

oliviermeslin commented 7 months ago

Merci @linogaliana et @pierre-lamarche pour la suggestion. Je pense qu'on peut distinguer deux choses en vue de construire un arbre de décision: 1/ les seuils de taille/volume, 2/ les recommandations d'usage.

Proposition de seuils

Note: ces seuils se calculent sur l'ensemble des données utilisées: si vous utilisez deux tables de 1 millions et 3 millions d'observations, alors vos données font 4 millions d'observations. Idem pour la taille.

Proposition d'arbre de décision