Closed briatte closed 4 years ago
Sur le principe Oui, même si j'y rajouterai bien lm et/ou glm puisque le but premier des formules est de spécifier un modèle.
Il n'y a pas de soucis à présenter plusieurs types de packages puisqu'on est dans la section Extra.
Il me semble important de faire apparaître aussi le mot formule dans le titre
Oui, il faudrait en fait retirer équation et mettre "formule" partout, ce sera plus clair.
P.S. Ressource utile :
http://faculty.chicagobooth.edu/richard.hahn/teaching/FormulaNotation.pdf
Je viens de relire le draft du chapitre. A la lecture, je ne suis pas sûr que la comparaison avec dplyr apporte ici grand chose. Mais le point central est surtout qu'à la lecture le coeur du chapitre est plus autour des stats et des graphiques bivariées qu'autour de la notion même de formule dans R.
Nous sommes dans la section Approfondir. Le but n'est donc pas d'introduire aux formules (ce qui sera fait de manière succincte dans les chapitres introductifs où l'on rencontrera des formules) mais plutôt de synthétiser et rassembler ici ce que signifient les formules dans R.
Le point de départ de tout cela est avant tout la définition de modèles (notamment pour lm
et glm
). La première partie de ce chapitre devrait donc plutôt se concentrer sur comment définir un modèle dans R à l'aide de formule (cf. http://faculty.chicagobooth.edu/richard.hahn/teaching/FormulaNotation.pdf).
Ensuite, dans une deuxième partie, comment les formules sont utilisées par extension dans d'autres fonctions statistiques, en particulier xtabs
et aggregate
. En fait, la logique de ces deux fonctions est de voir la stat bivariée comme des modèles simples.
Une troisième partie pourra s'intéresser à la manière dont les formules, toujours par extension, sont utilisées dans lattice et dans ggplot2, avec deux approches légèrement différentes, puisque cela définit les axes pour lattice alors qu'on ne les utilise que pour les facettes dans ggplot2.
À mon avis, ça fait sens d'aller du plus simple au plus compliqué. Si l'on prend l'ordre de lecture des autres chapitres, le lecteur rencontre d'abord les formules dans la stat. biv. (xtabs
) : du coup, je pense qu'on peut garder ça en premier. Ensuite, il y a un renvoi dans les graphes biv. vers lattice
: du coup, on continue par ça. Les utilisations de formules dans xtabs
, aggregate
et lattice
sont d'ailleurs toutes les mêmes, de type ~ a + b + c
, et dans ggplot2 de même type (ou alors x ~ y
pour facet_grid
), donc ça va assez bien ensemble.
La difficulté ici, c'est que je proposerais de faire exactement l'inverse : plutôt que de présenter rapidement les formules dans chaque chapitre, en avoir un qui serve de "référence" pour en expliquer le fonctionnement basique, et, dans les chapitres où ça modélise, là, avoir des explications plus complètes, car les formules diffèrent selon les modèles.
Va pour l'ordre xtabs, aggregate, lattice, modèles.
Il me semble néanmoins important d'expliquer ici un minimum de la syntaxe des modèles, i.e. les opérateurs autres que +
.
Rajouter une note sur la syntaxe dt.table
Le commit 3387c30d2cd697cec24a56142197b03a2da44753 est destiné à la rubrique “Extras”, sous-rubrique “Syntaxe”.
J’y fais la demo de
lattice
, qui est pratique ici pour montrer un exemple de notationformula
. J'y compare aussiaggregate
etxtabs
àdplyr
, ce qui fait la jonction en des fonctions R base etdplyr
.Le texte n’est pas développé : dis-moi d’abord si le principe du chapitre (les deux comparaisons) te convient.