Open Madouck opened 4 months ago
Après la lecture de la fiche, puis ensuite, la lecture de l'avis de Laurent, voici quelques remarques :
scale()
hist()
rrcov
, performance
correlation()
& vifstep()
psych
avec KMO()
& cortest.bartlett()
, ou package performance
parameters
avec n_factors()
see
lavaan
avec efa()
et predict()
La partie AFC, si elle est utile pour vérifier les résultats de l'AFE, n'est peut-être pas absolument nécessaire sur la fiche AFE elle-même. Si la méthodologie de l'AFC s'applique aussi à d'autres AF, peut-être qu'au autre découpage de la fiche est possible : lavaan
Par ailleurs, la bibliographie et les descriptions des méthodes et de leur genèse est particulièrement intéressante, mais probablement trop longue pour un article rzine : peut-être que celles-ci pourraient utilement être publiées par ailleurs et mises en référence utilement ici ?
Voici pour une première relecture...
Après lecture, cette proposition me paraît très riche et trop longue. Certains points sont répétés à plusieurs reprises (différences entre ACP et AFE notamment) alors que d'autres points sont peut-être évoqués trop rapidement (indice KMO, test de sphéricité de Bartlett). Mobiliser trois jeux de données différents ne facilite pas la lecture ; peut-être qu'il serait plus pertinent de garder un jeu et même jeu de données dans l'ensemble de la ou des fiches (le jeu démographie mondiale est sans doute le plus accessible quelle que soit la discipline du lecteur ou de la lectrice). La différence entre ACP et AFE pourrait être explicitée dès l'introduction (avec un envoi vers une ressource externe pour les ACP) afin de ne plus y revenir par la suite.
Concernant le caractère long et dense, je suggérerai de faire deux fiches distinctes:
Le niveau de technicité statistique de certains points mériterait à mon avis de légers développements. Je donne ci-dessous deux exemples de phrases où le lectorat non spécialiste (dont je fais partie) va vous croire sur parole sans bien saisir les enjeux de ce que vous écrivez: "Une méthode robuste qui fait consensus dans le cadre de données multidimensionnelles (c’est à dire corrélées entre elles) est la méthode MCD. Elle a été théorisé par Christophe Leys et ses collaborateurs en 2018 (Leys et al. 2018). Cette distance est elle même basée en partie sur la distance de Mahalanobis, et sa variante, la Mahalanobis robuste, qui ont été développées respectivement par Prasanta Chandra Mahalanobis en 1936 (Mahalanobis, C., P, 1936) et Gnanadesikan & Kettenring en 1972 (Gnanadesikan, R. & Kettenring, J. R., 1972)" "Les méthodes les plus courament utilisées sont celles qui se basent soit sur le maximum de vraisemblance (maximum likelihood), soit sur les méthodes des moindres carrés (pondérés ou non) (weighted or unweighted least square) (Tabachnick, B. G., & Fidell, L. S., 2014). Dans notre exemple, après observation des distributions de nos données, nous avons choisi de réaliser nos analyses avec la méthode de factorisation du maximum de vraisemblance robuste (mlr). Cette méthode permet d’optimiser le calcul des distances et la version robuste est adaptée à des données non normales (Kyriazos & Poga, 2023)."
Et il est des points qui me laissent sur ma fin, je pense par exemple aux remarques sur la taille de l'échantillon qui ne me permette gère de savoir quelle est la taille requise : "La taille de l’échantillon est également un élément contraignant pour ce type d’analyse. Si l’échantillon est trop faible au regard de la taille des informations à synthétiser, les résultats obtenus risquent de surreprésenter les spécificités de la population alors testée. La structure de l’analyse ne sera pas généralisable, mais influencée par les spécificités de l’échantillon. Il est donc important d’avoir une taille d’échantillon suffisamment importante afin de pallier ce type de biais (Young and Pearce 2013)."