larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
53 stars 40 forks source link

analyse-R/comparaisons-moyennes-et-proportions #121

Closed utterances-bot closed 2 years ago

utterances-bot commented 3 years ago

Comparaisons (moyennes et proportions)

http://larmarange.github.io/analyse-R/comparaisons-moyennes-et-proportions.html

louiskuhn commented 3 years ago

Bonjour, Je me tourne vers vous j'ai un petit problème technique (théorique même à vrai dire) sur un test de significativité. J'ai une variable csp et une variable group_contamination à 3 modalités (pas de contamination, contamination avant, contamination après). Les données sont pondérées donc j'obtiens le X2 et la p-value en faisant:

dw <- svydesign(ids=~1, data=data, weights=~data$wgts)
svychisq(~group_contamination+csp, dw, statistic="Chisq")$.pvalue

Voilà les résultats après une petite mise en forme avec pour chaque cellule : proportion pondérée (effectifs non pondérés)

contamination avant contamination pendant P-Value**
Social Class 0.234
Upper class 8.8 (500) 4.3 (218)
Upper middle class 8.5 (205) 4.4 (98)
Lower middle class 8 (72) 5.4 (42)
Working class 6.9 (66) 5.5 (42)
Health professional 6.2 (30) 7.7 (31)

On me demande de tester la significativité de la différence avant/pendant pour chaque csp, ce qui revient à associer une p-value pour chaque ligne et là je suis un peu perdu...est-ce que vous sauriez m'éclairer ou me dire vers où me tourner ?

ps : ce que j'ai fait mais sans être convaincu théoriquement, c'est tester group_contamination vs une variable binaire pour chaque csp

data$upper <- ifelse(data$csp=="upper class", 1, 0)
dw <- svydesign(ids=~1, data=data, weights=~data$wgts)
svychisq(~group_contamination+upper, dw, statistic="Chisq")$.pvalue
larmarange commented 3 years ago

Il me semble que votre problème se situe sur la manière de formuler correctement votre question, sachant qu'il s'agit de la poser de manière stratifiée (c'est-à-dire séparément pour chaque CSP).

Si votre question est Les personnes se sont-elles plus contaminé avant ou après ?, alors vous ne devriez prendre en compte que les personnes contaminées, regarder la proportion de avant et vous pourriez alors tester si elle est significativement différente de 50%.

Si la question est plus tôt de savoir si le risque de s'infecter était plus élevé avant ou après, alors il faut que preniez en compte qui sont les personnes à risques :

louiskuhn commented 3 years ago

Merci beaucoup pour votre réponse très rapide ! Et complète !