larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
56 stars 42 forks source link

Information erronée concernant Ward et Gower #73

Closed j4yv0 closed 7 years ago

j4yv0 commented 7 years ago

Après avoir utilisé votre document comme source pour expliquer le processus de classification hiérarchique par Ward et Gower (section "Classification ascendante hiérarchique (CAH)" - sous-sections "Calculer une matrice des distance" et "Calcul du dendrogramme"), ma directrice de mémoire ma conseillé de changer mon choix de source puisque l'information était totalement fausse.

Corriger votre formule de Gower en vous référant à Gower, J. C. (1971). A General Coefficient of Similarity and Some of Its Properties. Biometrics, 27(4), 857–871. Retrieved from http://www.informationretrieval.org/

La méthode de Ward n'utilise pas d'analyse de variance. Ward, J. H. (1963). Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. https://doi.org/10.2307/2282967 Ou bien: Lebart, L., Morineau, A., & Piron, M. (1995). Statistique exploratoire multidimensionnelle. DUNOD.

Ainsi, je vous suggère sinon de changer le contenu, au moins d'y joindre vos références afin de pouvoir contre vérifier les sources.

Merci!

larmarange commented 7 years ago

Bonjour (cette formule de politesse qui peut paraître désuète est encore d'usage sur le net).

Je ne saisi pas votre critique de la formule de l'indice de Gower. La formule utilisée sur analyse-R est strictement équivalente mais est présentée avec une notation légèrement différente et simplifiée (la formule est limitée aux indices comparables tandis que Gower l'étend aux indices non comparables sur ce qui rajoute une somme au dénominateur).

Concernant la méthode de Ward, la formulation utilisée, à savoir "analyse de variance" était maladroite pour deux raisons.

  1. Il ne s'agit pas d'une analyse statistique de la variance (type ANOVA) proprement à proprement parler. On présente souvent cette méthode comme cherchant à minimiser la variance intra-classe.
  2. Le critère utilisé par Wald n'est pas la variance proprement dite mais plutôt l'augmentation minimum de la somme des carrés

Les formulations du texte ont été reprises et des références ajoutées.

Nul document est infaillible. D'où l'usage de toujours comparer plusieurs sources quand cela est possible.

Cordialement