larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
56 stars 42 forks source link

Chapitre "Formules" #43

Closed briatte closed 4 years ago

briatte commented 9 years ago

Le commit 3387c30d2cd697cec24a56142197b03a2da44753 est destiné à la rubrique “Extras”, sous-rubrique “Syntaxe”.

J’y fais la demo de lattice, qui est pratique ici pour montrer un exemple de notation formula. J'y compare aussi aggregate et xtabs à dplyr, ce qui fait la jonction en des fonctions R base et dplyr.

Le texte n’est pas développé : dis-moi d’abord si le principe du chapitre (les deux comparaisons) te convient.

larmarange commented 9 years ago

Sur le principe Oui, même si j'y rajouterai bien lm et/ou glm puisque le but premier des formules est de spécifier un modèle.

Il n'y a pas de soucis à présenter plusieurs types de packages puisqu'on est dans la section Extra.

larmarange commented 9 years ago

Il me semble important de faire apparaître aussi le mot formule dans le titre

briatte commented 9 years ago

Oui, il faudrait en fait retirer équation et mettre "formule" partout, ce sera plus clair.

briatte commented 9 years ago

P.S. Ressource utile :

http://faculty.chicagobooth.edu/richard.hahn/teaching/FormulaNotation.pdf

larmarange commented 9 years ago

Je viens de relire le draft du chapitre. A la lecture, je ne suis pas sûr que la comparaison avec dplyr apporte ici grand chose. Mais le point central est surtout qu'à la lecture le coeur du chapitre est plus autour des stats et des graphiques bivariées qu'autour de la notion même de formule dans R.

Nous sommes dans la section Approfondir. Le but n'est donc pas d'introduire aux formules (ce qui sera fait de manière succincte dans les chapitres introductifs où l'on rencontrera des formules) mais plutôt de synthétiser et rassembler ici ce que signifient les formules dans R.

Le point de départ de tout cela est avant tout la définition de modèles (notamment pour lm et glm). La première partie de ce chapitre devrait donc plutôt se concentrer sur comment définir un modèle dans R à l'aide de formule (cf. http://faculty.chicagobooth.edu/richard.hahn/teaching/FormulaNotation.pdf).

Ensuite, dans une deuxième partie, comment les formules sont utilisées par extension dans d'autres fonctions statistiques, en particulier xtabs et aggregate. En fait, la logique de ces deux fonctions est de voir la stat bivariée comme des modèles simples.

Une troisième partie pourra s'intéresser à la manière dont les formules, toujours par extension, sont utilisées dans lattice et dans ggplot2, avec deux approches légèrement différentes, puisque cela définit les axes pour lattice alors qu'on ne les utilise que pour les facettes dans ggplot2.

briatte commented 9 years ago

À mon avis, ça fait sens d'aller du plus simple au plus compliqué. Si l'on prend l'ordre de lecture des autres chapitres, le lecteur rencontre d'abord les formules dans la stat. biv. (xtabs) : du coup, je pense qu'on peut garder ça en premier. Ensuite, il y a un renvoi dans les graphes biv. vers lattice : du coup, on continue par ça. Les utilisations de formules dans xtabs, aggregate et lattice sont d'ailleurs toutes les mêmes, de type ~ a + b + c, et dans ggplot2 de même type (ou alors x ~ y pour facet_grid), donc ça va assez bien ensemble.

La difficulté ici, c'est que je proposerais de faire exactement l'inverse : plutôt que de présenter rapidement les formules dans chaque chapitre, en avoir un qui serve de "référence" pour en expliquer le fonctionnement basique, et, dans les chapitres où ça modélise, là, avoir des explications plus complètes, car les formules diffèrent selon les modèles.

larmarange commented 9 years ago

Va pour l'ordre xtabs, aggregate, lattice, modèles.

Il me semble néanmoins important d'expliquer ici un minimum de la syntaxe des modèles, i.e. les opérateurs autres que +.

larmarange commented 5 years ago

Rajouter une note sur la syntaxe dt.table