larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
56 stars 42 forks source link

Graphiques univariés et bivariés #51

Closed larmarange closed 6 years ago

larmarange commented 9 years ago

Ces deux chapitres de la section Analyser > Stats introductives ont pour vocation à compléter les chapitres Stat univariée et Stat bivariée.

Il a déjà até admis que Graphs univariés n'abordera que les graphs de base de R tandis que Graphs bivariés introduira ggplot2.

larmarange commented 9 years ago

Je viens de relire tes deux propositions de chapitres. Il me semble qu'il faudrait réfléchir à leur réorganisation, vu qu'ils suivent les deux chapitres de stats.

Graphs univariés

Il y a plusieurs éléments qui à mon sens relèvent en fait du chapitre Graphs bivariés : à savoir les nuages de points, les matrices de nuages de points, densité d'un nuage, résultat d'un modèle linéaire.

La partie Exporter les graphiques devrait être très courte. Juste dire qu'il suffit d'utiliser les boutons de RStudio et renvoyer au chapitre Export de graphiques pour plus de détails.

La seule réelle "nouveauté" par rapport au chapitre stat univariée c'est plot(density(...)) et plot(ecdf(...)). Il me semble que ce chapitre doit reprendre et approfondir ce qui a été vu dans le chapitre précédent.

Il faudra au moins reprendre les boites à moustache, les diagrammes en baton et les diagrammes de Cleveland en approfondissant :

Graphiques bivariés

La proposition actuelle est surtout un exemple appliqué à une analyse des données de Reinhart et Rogoff. Il n'aborde qu'une partie des types de graphiques possibles en bivarié.

Ne pourrait-on pas d'abord commencer par reprendre les différents types de graphiques bivariés (deux variables quanti, une quanti une quali, deux quali) à partir des exemples basés sur hdv2003 du chapitre précédent. Sauf que là, on présenterait comment refaire les mêmes graphiques avec ggplot2. On pourrait également approfondir le chapitre précédent. Ainsi, le déplacerai bien l'estimation de densité locale du chapitre précédent à ce chapitre là. De même pour les mosaicplot dans la mesure où il s'agit d'un graphique avancé.

Une fois ce tour d'horizon des graphiques bivariés avec ggplot2, alors on pourrait avoir une partie Aller plus loin : l'exemple des données de Reinhart et Rogoff où là on reprendrait le contenu actuel avec la visualisation par petit multiples, en série temporelles, etc.

La fin du chapitre doit être revue. Ce n'est pas ici que l'on doit mentionner les ressources sur ggplot2 ou comment étendre ggplot2. On devrait se limiter à dire que ggplot2 permet de faire beaucoup plus (cf. section Approfondir) et qu'il existe aussi l'extension latice (cf. section Approfondir).

briatte commented 9 years ago

Hello,

OK pour reprendre graphes univariés, c'était au programme. La liste de graphes à commenter me va.

Sur le chapitre graphes bivariés, ça relance le débat : est-ce qu'on fait des chapitres basés sur un cas d'étude unique, qui puissent être lus comme des applications autonomes de R à différents exemples issus des sciences sociales, ou est-ce que l'on fait des exposés de fonctions avec démonstration des principales options ?

Les deux se valent, mais je pense que c'est plus intéressant de produire le premier type. Typiquement, je trouve que ça se tient que le chapitre "stat. bivariée" ait quelques graphiques bivariés, dont l'estimation de densité locale et le mosaicplot, qui ont bien leur place dans l'analyse vu les données. Le chapitre "graphes bivariés" prolonge ce chapitre, en changeant le cas d'étude, le type de données (variables continues, séries temporelles), et le moteur de visualisation.

À mon sens, si on fait

les deux chapitres sont complémentaires. Du coup, je recommanderais plutôt de baser "stat. bivariée" sur un seul jeu de données (rp99, car comme tu le notes, les résultats sont plus probants), et d'essayer de garder les chapitres sous forme de cas d'étude.

larmarange commented 9 years ago

En effet, c'est bien la question centrale de l'organisation des contenus qu'il faut débattre et le fait que de passer d'un support de cours papier à un site web nécessite de penser différemment l'ergonomie globale.

Il est indispensable que la navigation par le menu central amène directement à l'information principale. Autrement dit, avec un intitulé Graphiques bivariés, je dois avoir accès sur cette page à une présentation de l'ensemble des graphiques bivariés (ou du moins à la majorité d'entre eux). Cela n'interdit pas qu'un contenu puisse apparaître à deux endroits, mais il doit a minima apparaître dans le chapitre dont c'est le thème principal.

Il faut arriver à maintenir à la fois :

Ainsi, les graphs en mosaïques et celui de l'estimation des densités locales doivent apparaître a minima dans le chapitres Graphiques bivariés puisque selon l'intitulé de ce chapitre, c'est bien celui auquel ils correspondent. Cela n'interdit pas que l'on puisse les évoquer ailleurs lorsque c'est pertinent.

Je suis d'accord que des cas d'études sont intéressants et pertinents pour illustrer le propos. Cependant, ils ne constituent pas le coeur des chapitres mais servent à illustrer ce qui est abordé dans ces derniers. Ainsi, le chapitre Statistique bivariée est bien organisé selon le type de données à analyser (deux var quanti, une quanti et une quali, deux var quali) et non selon une analyse particulière. Et ceci est d'autant plus vrai que tout ce qui est test et comparaison est maintenant dispatché dans d'autres chapitres.

Cela ne signifie par pour autant que l'on ne peut pas améliorer les choses et présenter des études de cas :

  1. Soit à la fin d'un chapitre, ce qui permet de reprendre de manière appliquée ce qui a été abordé (et pas forcément tout ce qui a été abordé) dans le chapitre. C'est que je propose dans mon message précédent à propos du chapitre graphiques bivariés : une présentation de l'ensemble des graphiques bivariés (en tout cas les principaux) suivie d'une illustration au travers d'une étude cas.
  2. Soit au travers de chapitres récapitulatifs, qui pourraient être ajoutés à la fin des sections Statistique introductive et Statistique intermédiaire, et clairement intitulés, par exemple Etude de cas : l'analyse du bidule. Un tel intitulé nous permet de suite de savoir qu'on nous présente une étude de cas. Et ce chapitre pourra renvoyer dans le texte vers les chapitres "plus généraux".

Si cela ne suffit pas, il est toujours envisageable de rajouter une section dédiée à des Etudes de cas ou R dans la pratique.

Dans tous les cas, il me semble nécessaire d'être très explicite si l'on veut un outil où l'on puisse naviguer facilement.

larmarange commented 9 years ago

Un petit détail en passant. ;-)

Il faudrait remplacer = par <- dans le code (pour l'assignement).

briatte commented 9 years ago

La solution (2) que tu proposes est la plus claire sur papier. Elle sépare bien (a) les chapitres principaux, qui ressembleront à Quick-R, des (b) études de cas, qui illustrent l'utilisation de certaines des techniques présentées. Le chapitre "graph. biv. avec ggplot2" actuel peut servir d'étude de cas.

Assignment with <-: je viens de corriger, même si c'est la seule convention que je brise sans hésitation :)

larmarange commented 9 years ago

Pour ma part c'est bien une des conventions que je suis scrupuleusement. Comme quoi les us et coutumes !!

Concernant cette étude de cas (que je trouve très bien soit dit en passant ;-) ), si on la place en chapitre en chapitre autonome, est-ce que ca vaudrait le coup de rajouter quelques éléments :

Je suggère ça sans y avoir trop réfléchi. C'est à creuser.

En tout cas, je prends note de:

  1. un chapitre Graphiques bivariés qui introduit à ggplot, reprend et approfondi les graphiques de Statistique bivariée, et ajoute quelques graphs en plus.
  2. une étude de cas basée sur les données de Reinhart et Rogoff dont je te laisse trouver le titre approprié et qui serait sitié juste après le chapitre Graphiques bivariés
larmarange commented 9 years ago

Quelques liens intéressants pour les graphs bivariés:

larmarange commented 8 years ago

Voir aussi

larmarange commented 8 years ago

J'ai réorganisé un peu les choses :

  1. L'ancien chapitre graphiques univariés (qui contenant aussi des graphiques bivariés) a été dispatchés dans statistique univariée et statistique bivariée (cf. https://github.com/larmarange/analyse-R/commit/0b39371c16649e660f287e19458914b5406d037f)
  2. Le chapitre qui était intitulé graphiques bivariés et qui porte sur une étude de cas, devient une introduction à ggplot2 (cf. https://github.com/larmarange/analyse-R/commit/d57011572f1526a59b8bcb92c113cb7d4432ea77)
  3. AJout d'un chapitre Graphiques uni- et bivariés avec ggplot2 (qui reste à écrire) et qui reprendra les graphiques des deux chapitres statistique univarirée et statistique bivariée en montrant comment les réaliser avec ggplot2, afin de finir le lien (cf. https://github.com/larmarange/analyse-R/commit/a085de949d38dbdc88cd8d4e20199cbb96649b21)